阿里巴巴AI新技術 EMO 震撼發表
想像一下,只需一段音頻和一張靜態相片,就能讓圖中人物仿佛被賦予生命般開口說話甚至唱歌 (還能快速說唱 Rap) ,
而且還完美無縫與嘴型融合 (真的超無縫),這種更嶄新、更穩定的相片開口技術,最近又燃炸問世!
阿里巴巴集團智慧運算研究院 (Institute for Intelligent Computing) 最近發表了他們研究的一款最新AI技術「EMO: Emote Portrait Alive」,可以使用音視頻擴散模型 (Diffusion Models) 產生富有張力的肖像影片,
這項技術無疑地未來將會被大量套用在 “懷念過往親友”、”重新恢復條件不佳的相片” 等用途 (我覺得距離讓寵物相片發聲也不遠了🕊️),
當然,更不用提這對影音市場又可能帶來多大的衝擊和影響了。
雖然我們也分享過像 “Heygen” 這種能讓相片說話的工具 (可參考: 全民 AI 主播時代來臨!只需 1 張圖、 2 分鐘,即刻生成個性化 AI 虛擬人影片),
但在完美融合快速 Rap 嘴型、甚至開口唱歌這種的表現力,阿里巴巴的這項 EMO AI 技術應是市場首見。
有影片有真相 (雖然 “有影片有真相” 的時代已開始消失中😅),先來看看阿里研究機構發表的 Demo 影像:
阿里 EMO 可生成各種類型的表現影片 – 讓肖像歌唱 (Make Portrait Sing)
根據阿里研究團隊的發表,EMO 技術可以透過提供單一角色的圖像和聲音音訊,例如唱歌,就可以生成表情豐富和呈現各種頭部姿勢的聲音頭像影片。
阿里 EMO 可生成各種類型的表現影片 – 不同的語言和肖像風格 (Different Language & Portrait Style)
EMO 可支援提供各種語言的歌曲,並將不同的肖像風格帶入現實,可以直觀地識別音訊中的音調變化,從而產生動態、表情豐富的化身。
說白話些,就是不管 “人物” 本身是真人、動漫、3D,還是任何一個人物,都能讓他開口說出各種語言、或唱出各種語言的歌曲。
阿里 EMO 可生成各種類型的表現影片 – 快速節奏也沒問題 (Rapid Rhythm )
EMO 技術可以也可以應用在超快速的節奏上,即使是最快的歌詞,也能展現出富有張力和動態的表現,能夠與圖片、照片中的角色完美同步。
阿里 EMO 可生成各種類型的表現影片 – 與不同的角色對話(Talking With Different Characters )
EMO 不僅限於可處理唱歌的音訊輸入,還可以容納各種語言的口語音訊。
此種技術能夠將過去時代的肖像、繪畫以及 3D 模型和人工智慧生成的內容製作成動畫,為其注入逼真的動作和真實感。
用白話說,就是什麼臉都能套用同一句台詞 ~
阿里 EMO 可生成各種類型的表現影片 – 跨演員表演 (Cross-Actor Performance)
根據 EMO 官網的介紹,這項技術存在許多的潛在應用,例如能使電影角色的肖像能夠以不同的語言和風格提供獨白或表演。甚至擴大至多語言和多文化背景下人物塑造的可能性。
用白話說,即便是利用知名政壇人物、球員、各類人士的肖像,也能將他們轉化為說出不同語言、或改變原本的說話風格 (聲音都能換了,風格也能換)。
說實話,這是一項令人細思極恐的技術
雖然 EMO 的這項技術可以應用在許多夢想般的用途,例如讓思念親友的人們,僅用照片+當事人在世時的音訊 (聲音檔),就能做出一支 當事人栩栩如生說話或唱歌等發聲的影片,
但是,這種技術一開源,並且被廣泛拿去研究、升級開發後,我們到底還能相信什麼?
未來即便是 “一鏡到底” 的影片,恐怕都不能再 100% 相信了,這種時代,還有什麼是真實的?
當然以後勢必也會出現 “反偵測AI技術” 的新技術,但誰又能百分百相信,其中不會有 bug 或失誤?
想像一下,收到親友提供的一支影片,告訴你他現在人在哪,在做啥,需要什麼幫助,這種影片,即便是親生女兒、兒子、親生爸媽,誰還敢輕易相信是真的?
眼下恐怕除非是親自通話,雙方提前都給個暗號,"有影片有真相"、"眼見為憑"這類判斷方式,
從現在開始,恐怕要漸漸埋沒在歷史的長河中了。
探索更多來自 遠距生活 的內容
訂閱即可透過電子郵件收到最新文章。