當我還在跟ChatGPT聊天時，AIGC圈子里已經刷起了新玩意兒——

AI生成的喬布斯，他仿佛從畫中醒來，對著鏡頭侃侃而談ChatGPT，嗓音也頗似原聲。

據(jù)作者“汗青”介紹，視頻中的文案選自于他與ChatGPT的對話，喬布斯的形象由AI作圖工具Midjourney生成，AI擬聲工具ElevenLabs提供了嗓音復刻，最后通過AI視頻工具D-ID將圖像轉為視頻。

借助類似的AI工具，網友用“魔法”生成的紙片人都能動起來了，甚至還能輕松創(chuàng)造一個自己的數(shù)字分身。

AIGC降低了創(chuàng)作門檻，越來越多的人正試圖讓AI參與內容創(chuàng)作，從文案、錄制到配音、剪輯，幾乎可以讓AI全包了。據(jù)國外商業(yè)咨詢機構Acumen Research and Consulting預測，若考慮下一代互聯(lián)網對內容需求的迅速提升，2030年AIGC市場規(guī)模將達到1100億美元。

近年來，AI對話、AI繪畫、AI語音技術其實都有一定的發(fā)展，而相對來說，視頻領域的AI模型研發(fā)和應用才起步不久。像D-ID這樣僅需一張靜態(tài)圖片就能創(chuàng)建虛擬人視頻的技術，屬實令人驚奇。

目前國內外有哪些AI視頻創(chuàng)作工具？AI又將給視頻內容生產和交互體驗帶來什么改變？本文對此進行了盤點和分析。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

AI拼接素材，套上模板秒出視頻

一般視頻創(chuàng)作包括這些環(huán)節(jié)：寫腳本/文案，拍攝視頻或尋找第三方素材，剪輯素材，配音，配樂，添加轉場、特效、字幕、標題、封面圖等。

其中，AI現(xiàn)在已經可以輔助完成很多任務了，比如圖文智能匹配視頻素材、AI自動剪輯、AI摳像、AI換臉、畫質優(yōu)化修復。

“圖文成片”的功能在各平臺推出的剪輯應用中十分常見，抖音的剪映、快手的快影、百度的百家號、B站的必剪都支持根據(jù)文案，一鍵拼接圖片和視頻素材，并同步生成字幕和配音。

輸入的文案可以參考AI助手的回答。舉個例子，“養(yǎng)貓會對一個人產生什么影響”，ChatGPT回答說養(yǎng)貓能減壓緩解焦慮、增強社交能力、提高心理健康、增加運動量，我們可以在此基礎上進行修改再導入剪映。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

剪映不到一分鐘就自動生成了視頻，畫面跟文案內容基本符合。如果對素材不滿意，比如想把靜態(tài)圖片換成視頻，可以到在線素材庫中搜索更合適的進行替換。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

值得注意的是，這些素材往往來源于網絡或第三方服務，比如免版權圖庫Unsplash、Pexels，AI剪輯應用所做的是通過AI和機器學習對文案進行語義分析，分鏡頭處理，智能匹配相應的畫面。

因此，一鍵圖文成片對創(chuàng)作者最大的幫助是節(jié)省搜集素材的時間，減少人工剪輯勞動量，通過自動化、模板化的方式提高視頻生產效率。

類似的視頻自動剪輯工具還有“Lumen5”，主打長圖文轉視頻，提供了大量視頻模板，操作上門檻更低，像制作PPT一樣拖曳文字即可轉成畫面。Lumen5自2017年推出至今，官網介紹已有超100萬家企業(yè)客戶將其作用于社交媒體營銷和傳播。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源Lumen5

“vidyo”出自于印度的AI初創(chuàng)團隊，支持長視頻轉短視頻，通過AI語音識別技術可以從素材中自動剪輯出精彩片段，適用于直播視頻切片、播客剪輯，不過目前視頻語言僅支持英文。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源vidyo

盡管目前視頻創(chuàng)作軟件的AI功能以文字匹配視頻素材為主，但之后可能會加入更多AIGC工具。

例如海外的AI視頻工具“Fliki”，擅長短圖文轉視頻，輸入Twitter等博客鏈接即可快速生成短視頻，在圖片素材上它還提供文字生成AI圖像，由DALL·E提供技術支持。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源Fliki

“Copydone”出自于國內AIGC初創(chuàng)公司，支持小紅書、淘寶等各平臺AI營銷文案生成，同時也能根據(jù)文案自動生成配圖或拼接視頻。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源Copydone

海外AI視頻網站“QuickVid”集成了GPT-3、DALL·E 2等AI生成圖文的能力，用戶只需給定一個視頻主題，剩下的都可以自動生成。不過它在二次編輯上的自由度和豐富性比較有限。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源QuickVid

此外，視頻創(chuàng)作中的特定需求也可以嘗試用AI實現(xiàn)。比如AI修復老視頻已有很多熱門案例，歷史資料、早年的影視片段都能通過“Video Enhance AI”等視頻增強軟件提升畫質和分辨率。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源B站

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

讓照片說話，跨模態(tài)AI做到了

現(xiàn)在的AI只能算是輔助視頻創(chuàng)作的小助手，如果想要原創(chuàng)度更高、從無到有地快速創(chuàng)作視頻還比較困難，但更強大的跨模態(tài)生成視頻的模型（例如文字生成視頻，圖像生成視頻）已經在路上了。

文字生成視頻，除了從已有素材庫中拼接而成，實際上還有更接近于人類的工作方式，就像AI繪畫模型一樣學習文本和圖像的抽象概念。

2022年5月，清華大學曾聯(lián)合智源研究院發(fā)布“CogVideo”，這是國內首個開源的文本生成視頻模型。在其Demo網站中，選擇“青年女子在餐廳里喝奶茶”就可以看到AI生成的4秒視頻，分辨率為480×480。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源CogVideo

在設計模型上，CogVideo含94億參數(shù)，將預訓練文本-圖像模型（CogView2）有效地利用到文本-視頻模型，并使用了多幀率分層訓練策略。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

CogVideo生成的32幀的4秒剪輯

從技術本質上來看，視頻就是一幀幀的連續(xù)圖像，AI文字生成視頻也可看作文字生成圖像的一種延伸。大致原理就是通過文本生成幾個單幀的圖像，再用插值算法在幾個幀之間繪制圖像，生成前后連貫的視頻。

之前Disco Diffusion走紅時就有玩家利用其動畫模式生成2D或3D視頻，由此也延伸出一些使用門檻更低、創(chuàng)作更簡便的AI生成視頻應用。

比如AI視頻網站“Kaiber”，用戶輸入圖像或文本描述，也可以從預設中選擇幾個詞，就能快速生成4種視頻結果。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源Kaiber

近期美國流行搖滾樂隊Linkin Park發(fā)布的新MV《Lost》，就是由Kaiber為其制作的動畫。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源《Lost》

不過目前跨模態(tài)生成視頻的AI模型仍處于探索階段，谷歌、Meta等大廠去年都發(fā)布了相關研究論文，只有演示案例，具體產品還未上線。

據(jù)Meta官網介紹，“Make-A-Video”加速了文本到視頻模型的訓練（它不需要從頭開始學習視覺和多模態(tài)表示），也不需要成對的文本-視頻數(shù)據(jù)，卻可以實現(xiàn)豐富的文字生成視頻，圖像生成視頻（讓單個圖像或兩個圖像間動起來），以及改變原始視頻的風格。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源Make-A-Video

谷歌發(fā)布的“Imagen Video”和“Phenaki”也能實現(xiàn)類似以上的效果，并且Phenaki可以根據(jù)一系列提示生成2分鐘以上的長視頻。

太空行走的煙花

使用的提示：

宇航員穿過火星上的水坑的側視圖

宇航員在火星上跳舞宇航員

在火星上遛狗

宇航員和他的狗看煙花

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源Phenaki

人工智能公司Runway曾參與構建了第一個版本的Stable Diffusion，最近他們又發(fā)布了一個新的視頻生成器“Gen-1”，即將開放內測，宣稱可以把視頻轉換成任意風格。

根據(jù)Gen-1官網演示，用戶提供一張參考圖，就能對原視頻進行指定風格化的渲染，或者用文字指示修改視頻中的部分素材，甚至還可以輸出3D模型渲染和定制視頻。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源Gen-1

在AI生成3D短視頻方面，近期國內的深氧科技完成了千萬元級天使輪融資，引入GPT3.5、Transformer、Diffusion Model等AI技術紅利，其發(fā)布的O3.xyz引擎V1.0版本支持一站式生成3D短視頻內容，百萬粉博主“特效卡卡西”等創(chuàng)作者已加入內測。

可見跨模態(tài)AI生成視頻正在加速發(fā)展中， “用嘴做視頻”，未來在短視頻、影視、設計、游戲、電商等諸多行業(yè)都存在應用的可能。

回到開頭提到的“D-ID”，生成數(shù)字人/虛擬分身也屬于圖像生成視頻的一種類型，這類工具目前在企業(yè)培訓和營銷方面的應用案例比較多。

2020年推出的AI視頻創(chuàng)作產品“Synthesia”顯示已有數(shù)千家公司在使用，用戶可以從現(xiàn)有演員庫中選擇或上傳自己的視頻來創(chuàng)建AI形象，然后輸入腳本，讓AI配音、拼接素材就能輸出視頻了。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源Synthesia

Synthesia通過訓練神經網絡來達成逼真的合成效果，相比傳統(tǒng)視頻制作來說，減少了真人出鏡錄制等環(huán)節(jié)，能節(jié)省制作費用和周期，而且能一鍵生成多國語言的視頻，便于本土化服務。因此，企業(yè)多用于大規(guī)模生成員工培訓、產品入門演示、市場營銷等視頻。

D-ID則在更早以前就開始研發(fā)圖像處理技術，曾與MyHeritage合作推出“深度懷舊”計劃而聞名，借助AI工具，用戶可以讓已故親人的靜態(tài)照片變成栩栩如生的動態(tài)視頻。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

最近乘著ChatGPT的熱潮，多種AI工具組合制作的視頻被更多人看見了，D-ID的體驗門檻較低，即使是不懂視頻創(chuàng)作的新手，只要上傳一張圖片，幾分鐘內就可以生成有人物解說的視頻。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源D-ID

D-ID自動為人物添加了一系列面部動作，會模擬一些輕微的頭部運動，不過有時表情顯得有點怪異，太逼真的照片可能會令人產生“恐怖谷”的反應。

同時，用戶無法上傳涉及政治、性、犯罪、名人、歧視性圖像，D-ID會提示違規(guī)風險。這意味著AI生成視頻技術同其他生成內容一樣會面臨版權、倫理等問題。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

下一波AIGC浪潮，我們如何應對

去年Stability AI的CTO Tom Mason曾判斷，繼文字生成圖像后，下一波浪潮肯定是視頻、音頻和3D。

當AI可以寫文章、畫畫、做視頻，試圖包攬大部分創(chuàng)作任務時，人類接下來該做什么呢？

這里僅談談我的思考，首先技術人員可以繼續(xù)開發(fā)和完善AI模型。在TikTok的官網上，已經掛出了AIGC方向機器學習工程師的招聘需求。

別玩ChatGPT了，更酷炫的AI視頻創(chuàng)作工具來了

圖源TikTok Career

TikTok表示，“AIGC最近的突破使我們相信可以將AIGC技術用于商業(yè)目的，尤其是創(chuàng)意制作。想想AI生成/輔助的廣告創(chuàng)意腳本，甚至是AI生成的商業(yè)圖像和視頻，它們將永遠改變創(chuàng)意制作行業(yè)。”

當下的AI視頻模型還不能很快生成像AI繪圖那樣高質量的作品 ，比如存在視頻模糊、動作不自然、缺少細節(jié)等問題。但隨著國內AIGC的技術發(fā)展，相關場景應用生態(tài)可能有很大的想象空間，包括上文提到的一些AI技術公司目前已經開始提供付費服務了，為個人和企業(yè)有針對性地提高內容生產效率。

對于內容創(chuàng)作者來說，與其擔憂會不會被AI取代，不如去學習認識和使用AI工具，讓AI代替重復性的瑣碎工作，將更多時間花在自己的核心優(yōu)勢上，產生更高質量的內容。

的確有了AI的加入，內容競爭會愈發(fā)激烈。有創(chuàng)作者說D-ID出現(xiàn)后，“所有念稿式、新聞播報式的純搬運類視頻都將受到巨大沖擊”。

從用戶角度出發(fā)，我想只要是高質量內容，即使是AI批量生成的又如何？我們擔憂的其實是低質內容的泛濫。

平臺和用戶都需要避免AI被濫用，比如生成虛假、仇恨、歧視或有害的內容，甚至是引發(fā)詐騙等犯罪行為。谷歌曾提到出于安全和倫理的考慮，在Imagen Video的內部試驗中應用了輸入文本提示過濾和輸出視頻內容過濾，但目前仍存在重要的相關風險，暫時不會發(fā)布兩個視頻生成模型的代碼或Demo。

總之，AI技術一方面大大降低了從文本到視頻內容創(chuàng)作的門檻，另一方面AIGC也推動著內容行業(yè)革新，目前至少能達到一定程度的降本增效，但發(fā)展初期還未建立起新的規(guī)則和秩序，最終如何改變行業(yè)還得看人的作用。

P.S.：本文提及的部分AI視頻工具網址，可以關注“ 新榜 ”，在公眾號對話框回復“ AI視頻 ”獲取。