美國大學技術研究:隨意輸入文字,能讓影片中的人物改念新的對白,細思極恐(附影片)

本文來源:量子位

微信id:QbitAI

作者:栗子、安妮

細思極恐的事情還是來了。

史丹福和普林斯頓大學等最新研究:給定任意文本,就能隨意改變一段視頻裏人物說的話。

並且,改動關鍵詞後人物口型還能對得奇準無比,絲毫看不出篡改的痕跡,就像下面這樣:

(影片內容到0:44這一段)

蘋果今日收盤價191塊4,改成182塊2,你也看不出來。

讓新垣結衣向你表白,讓石原里美大聲喊出你的名字,甚至隨便根據某個人的視頻偽造個人陳述……現在都不在話下。

手握這項技術,在視頻中讓你怎麽說你就怎麽說,讓你說什麼你就得說什麼,誰也看不出來這是假的。

有視頻有真相?現在已經徹底過去了。

可能因為技術過於強大真是,研究人員還在項目主頁上特意聲明,這項技術一旦被濫用會造成可怕的後果,公布技術只是用於向公眾科普,還呼籲相關部門建立相關法律……

這項研究的論文中選了計算機圖形學頂會SIGGRAPH 2019。

以下是完整版影片

  「朱茵換臉楊冪」爆紅視頻製作者:從此大家要知道,爆料視頻也可能是假的(附影片)

以下是全部效果展示

天衣無縫P視頻

這個技術可以完成對視頻多種類型的篡改。

功能1:改變人物台詞

改變視頻裏的關鍵詞,用假信息替換真內容,後果不要太可怕。

開頭展示的視頻就是改動後的效果。

功能2:改變人物嗓音

就算用合成的嗓音改造視頻主角,也可以把人物口型調的宛如原生。

功能3:隨意刪除信息

即使你刪掉視頻中的部分關鍵詞,也可以保持語音和圖像的連貫。

有些話你說了麽?你覺得說了,但看起來就是沒說~

功能4:合進視頻背景

AI將視頻裏人物的內容補充進完整視頻:

功能5:連貫視頻

此外,這項技術還能把磕磕巴巴的演講/對話等視頻,拆開後重新拼接,變成流暢畫面。

結巴的救星、鏡頭恐懼患者的福音就是它了。

研究人員進行了不同維度的測評,發現這項技術的效果在同類產品中領先了不少。

將此方法與深度視頻人像(Deep Video Portraits,DVP)方法輸出的人物渲染圖像相比,新技術終於看起來不那麽詭異了。

比如牙齒的合成效果:

比如衣服細節的合成效果:

  【第一批AI已經開始詐騙】用你的聲音你的臉,說你沒說過的話

與傳統刪除視頻場景的MorphCut技術對比,MorphCut在第2、3、4幀的場景刪除任務中失敗了,而新技術可以成功切除:

與Face2Face的面部改造技術相比,新技術避免了畫面中出現的「鬼影」,合成畫面也更加高清、穩定。

最後,研究人員還邀請了138位志願者,來評估這種方法的真實性如何。

這些志願者去判別「這個視頻是不是真實」,如果同意真實則給5分,完全確信是假的就給1分,結果顯示,這項技術在很多時候,已經讓喪失了對視頻真假的準確判斷。

  AI換臉是網民「報復」的新武器

AI對口型

自動合成某個人的語音,已經有許多演算法可以做到。

這裡,團隊使用了原本視頻主角的錄音,而在不需要原聲的部分,用了Mac自帶的語音合成工具。暫不贅述。

這項研究最閃亮的部分,是流暢自然的「對口型」。

左手拿著視頻,右手拿著文本,團隊使用了五步法:

第一步:視頻和文本要對齊

這裡需要的是非常細致的對齊,精確到音位 (Phoneme) 。

音位是什麼?那是人類語言裏能夠區分語義的最小聲音單位,分成母音和輔音。

找到特定的母音輔音,就能組成你要的單詞,或者句子。

每種音位,又有各自對應的口型。所以在對口型任務裏,視頻和文本之間的精準對齊很有必要。

團隊用的對齊工具叫P2FA:除了分辨出各種音位,還會把每個音位開始和停止的時間標記出來。

當然,如果手頭數據只有視頻沒有文本的話,也可以用自動語音轉錄工具來生成文本,這類應用已經很常見了。

第二步:3D人臉追蹤和重構

要為視頻的每一幀,註冊一個3D參數人臉模型 (3D Parametric Face Model) 。

模型裏的各種參數,會在後面的步驟中混合 (Blending) ,發生奇妙的反應:

比如,用某一幀的面部表情,搭配另一幀的頭部姿勢/朝向,組成新的一幀。

為了獲得3D參數模型,團隊從前輩的研究裏借鑒了單目的、基於模型的人臉重構演算法 (Monocular Model-Based Face Reconstruction) 。

這類演算法,可以把頭部姿勢參數化,把臉部幾何參數化,還有臉部的反射率、表情,以及場景中的光線,都可以參數化。

於是,視頻的每一幀都獲得了257個參數的向量

第三步:唇形搜索

剛才的精細對齊,現在派上用場了。

就像上文提到的,每種音位對應了各自的唇形。但不同音位也可以有相似的唇形,可以通用。

比如,想把蜘蛛 (Spider) 改成狐貍 (Fox) ,原本需要「f」的唇形和「ox」的唇形。

不過,「v」和「f」從視覺上看並沒有太大差別。如果,視頻裏講過毒蛇 (Viper) ,只要把「v」的唇形提取出來,和「ox」的唇形拼到一起,也能組成「fox」的動作。

根據文本,可以從視頻裡面,把需要拼接的片段,從視頻裡面抽出來。

第四步:重新定時,參數混合

可四下提取出來的片段,還不能直接拼到一起。有兩個重要的問題需要解決:

一是,音位視頻裏提取的音位,可能動作滿足要求,但時長就不一定跟新台詞吻合了。

二是,兩個需要連在一起的片段,可能在原始視頻裏相距很遠,說話人頭部的位置、姿勢都會發生變化,直接拼起來就會不連貫了 (下圖右) 。

想生成連貫自然的視頻,前面做好的3D人臉參數模型,就是這裡的大招:

把頭部姿勢、面部表情、反射率、場景光線等等參數,都放在一個參數空間裡面去混合 (Blend) 。

這個過程,包括給各個片段重新設定時長,也包括把頭部動作變連貫。

除此之外,為了避免攝像頭移位帶來的背景變化,還需要選擇一個背景序列。

這樣,一個流暢的背景視頻就做好了。

之所以叫「背景視頻」,是因為在這個步驟裏,嘴部動作被提前摳掉了,所以還有下一步。

第五步,臉部渲染

最後一步,訓練一個迴圈網絡 (RNN) 作為GAN的生成器,加上一個時間空間判別器:

讓GAN把嘴部動作 (下半張臉) 和背景視頻,無縫混合到一起。

到這裡,跟著新台詞對口型的視頻,就愉快地生成了。

作者介紹

這篇研究的作者共有10人,都帶著閃閃發光的履歷。

他們來自較為知名的機構,包括史丹福大學的Ohad Fried、Michael Zollhöfer、Maneesh Agrawala,普林斯頓大學的dam Finkelstein、Kyle Genova,馬克斯·普朗克信息學研究所的Ayush Tewari、 Christian Theobalt和Adobe的Eli Shechtman、Zeyu Jin,此外還有DAN B GOLDMAN。

一作Ohad Fried為現在為史丹福大學的博士後,與印度裔教授Maneesh Agrawala合作,主要研究計算機圖形學、計算機視覺和人機交互。

Fried小哥本科和研究生畢業於希伯來大學,博士去普林斯頓進行深造,隨後在谷歌、Adobe等實習過。

二作Ayush Tewari目前是馬克斯·普朗克信息學研究所博士三年級在讀,此前有多篇論文被頂會收錄,包括一篇ECCV 18、兩篇CVPR 18和一篇ICCV 17。

作者團隊中還有一位華裔成員,是來自Adobe的研究科學家ZEYU JIN。

ZEYU JIN的個人主頁顯示, ZEYU主要研究方向是語音和音樂合成,視頻中用到的音頻處理軟件Adobe Project VoCo就是ZEYU主導的項目。

技術「太嚇人」

最後,在這個項目的主頁地址,裡面還有研究人員的專門聲明:

這個基於文本的視頻編輯方法,為更好的電影後期編輯打下了基礎。

原本,電影裏的對話要重新定時或者修改,需要繁瑣的手動工作。但現在AI可以依靠文本,更好地調整視頻裏的圖像和音頻。

除了影視作品,技術也可以用於教學視頻,或者給兒童講故事的應用。

但這種技術,也有被濫用的隱患。行為不良的人可能用這樣的方法來來偽造個人陳述,誹謗知名人士。

所以,視頻中要有明顯證據表明它是合成的,這一點至關重要。比如在視頻裏直接陳述,或者加入水印標明這一點。

並且,技術社區應該繼續發開發識別假視頻的技術,在減少濫用的同時,為有創造性的合法使用提供空間。

最後,我們認為有必要進行強有力的公開討論,建立適當的法規,平衡這類工具的濫用風險與創造力的重要性。

他們強調,這項技術一旦被濫用會造成可怕的後果。

到底多可怕?不光顛覆一行一業,也對現有的倫理和法律提出新挑戰,隨便舉幾例:

在deepfake剛剛興起的時候,就有不少人評論稱,娛樂行業,靠臉吃飯的流量小生,使用好這項技術,結合換臉AI deepfake和語音合成,真的就能靠臉吃飯。

台詞功力?表情演技?都不重要,甚至有個替身方便換臉就好。

現在,利用這一技術篡改的人物口型幾乎一般人難辨真假,如果有人借新聞主播之口製造一段假新聞,就可能引起大眾的恐慌。

在安防監控領域,視頻裏的人說了什麼、做了什麼,真的就可信嗎?這項技術可怖不在於讓視頻中的人和事「從有變無」,而是有能力「無中生有」。

AI技術進展太快,現有倫理道德和法律法規,是時候重新考量了。

你說呢?

最後,附上論文傳送門

論文Text-based Editing of Talking-head Video地址:https://arxiv.org/abs/1906.01524

  AI換臉是網民「報復」的新武器
  「朱茵換臉楊冪」爆紅視頻製作者:從此大家要知道,爆料視頻也可能是假的(附影片)

閱讀原文