當(dāng)我還在跟ChatGPT聊天時(shí),AIGC圈子里已經(jīng)刷起了新玩意兒——
AI生成的喬布斯,他仿佛從畫中醒來,對著鏡頭侃侃而談ChatGPT,嗓音也頗似原聲。
據(jù)作者“汗青”介紹,視頻中的文案選自于他與ChatGPT的對話,喬布斯的形象由AI作圖工具M(jìn)idjourney生成,AI擬聲工具ElevenLabs提供了嗓音復(fù)刻,最后通過AI視頻工具D-ID將圖像轉(zhuǎn)為視頻。
借助類似的AI工具,網(wǎng)友用“魔法”生成的紙片人都能動(dòng)起來了,甚至還能輕松創(chuàng)造一個(gè)自己的數(shù)字分身。
AIGC降低了創(chuàng)作門檻,越來越多的人正試圖讓AI參與內(nèi)容創(chuàng)作,從文案、錄制到配音、剪輯,幾乎可以讓AI全包了。據(jù)國外商業(yè)咨詢機(jī)構(gòu)Acumen Research and Consulting預(yù)測,若考慮下一代互聯(lián)網(wǎng)對內(nèi)容需求的迅速提升,2030年AIGC市場規(guī)模將達(dá)到1100億美元。
近年來,AI對話、AI繪畫、AI語音技術(shù)其實(shí)都有一定的發(fā)展,而相對來說,視頻領(lǐng)域的AI模型研發(fā)和應(yīng)用才起步不久。像D-ID這樣僅需一張靜態(tài)圖片就能創(chuàng)建虛擬人視頻的技術(shù),屬實(shí)令人驚奇。
目前國內(nèi)外有哪些AI視頻創(chuàng)作工具?AI又將給視頻內(nèi)容生產(chǎn)和交互體驗(yàn)帶來什么改變?本文對此進(jìn)行了盤點(diǎn)和分析。
AI拼接素材,套上模板秒出視頻
一般視頻創(chuàng)作包括這些環(huán)節(jié):寫腳本/文案,拍攝視頻或?qū)ふ业谌剿夭模糨嬎夭模湟簦錁罚砑愚D(zhuǎn)場、特效、字幕、標(biāo)題、封面圖等。
其中,AI現(xiàn)在已經(jīng)可以輔助完成很多任務(wù)了,比如圖文智能匹配視頻素材、AI自動(dòng)剪輯、AI摳像、AI換臉、畫質(zhì)優(yōu)化修復(fù)。
“圖文成片”的功能在各平臺推出的剪輯應(yīng)用中十分常見,抖音的剪映、快手的快影、百度的百家號、B站的必剪都支持根據(jù)文案,一鍵拼接圖片和視頻素材,并同步生成字幕和配音。
輸入的文案可以參考AI助手的回答。舉個(gè)例子,“養(yǎng)貓會對一個(gè)人產(chǎn)生什么影響”,ChatGPT回答說養(yǎng)貓能減壓緩解焦慮、增強(qiáng)社交能力、提高心理健康、增加運(yùn)動(dòng)量,我們可以在此基礎(chǔ)上進(jìn)行修改再導(dǎo)入剪映。
剪映不到一分鐘就自動(dòng)生成了視頻,畫面跟文案內(nèi)容基本符合。如果對素材不滿意,比如想把靜態(tài)圖片換成視頻,可以到在線素材庫中搜索更合適的進(jìn)行替換。
值得注意的是,這些素材往往來源于網(wǎng)絡(luò)或第三方服務(wù),比如免版權(quán)圖庫Unsplash、Pexels,AI剪輯應(yīng)用所做的是通過AI和機(jī)器學(xué)習(xí)對文案進(jìn)行語義分析,分鏡頭處理,智能匹配相應(yīng)的畫面。
因此,一鍵圖文成片對創(chuàng)作者最大的幫助是節(jié)省搜集素材的時(shí)間,減少人工剪輯勞動(dòng)量,通過自動(dòng)化、模板化的方式提高視頻生產(chǎn)效率。
類似的視頻自動(dòng)剪輯工具還有“Lumen5”,主打長圖文轉(zhuǎn)視頻,提供了大量視頻模板,操作上門檻更低,像制作PPT一樣拖曳文字即可轉(zhuǎn)成畫面。Lumen5自2017年推出至今,官網(wǎng)介紹已有超100萬家企業(yè)客戶將其作用于社交媒體營銷和傳播。
圖源Lumen5
“vidyo”出自于印度的AI初創(chuàng)團(tuán)隊(duì),支持長視頻轉(zhuǎn)短視頻,通過AI語音識別技術(shù)可以從素材中自動(dòng)剪輯出精彩片段,適用于直播視頻切片、播客剪輯,不過目前視頻語言僅支持英文。
圖源vidyo
盡管目前視頻創(chuàng)作軟件的AI功能以文字匹配視頻素材為主,但之后可能會加入更多AIGC工具。
例如海外的AI視頻工具“Fliki”,擅長短圖文轉(zhuǎn)視頻,輸入Twitter等博客鏈接即可快速生成短視頻,在圖片素材上它還提供文字生成AI圖像,由DALL·E提供技術(shù)支持。
圖源Fliki
“Copydone”出自于國內(nèi)AIGC初創(chuàng)公司,支持小紅書、淘寶等各平臺AI營銷文案生成,同時(shí)也能根據(jù)文案自動(dòng)生成配圖或拼接視頻。
圖源Copydone
海外AI視頻網(wǎng)站“QuickVid”集成了GPT-3、DALL·E 2等AI生成圖文的能力,用戶只需給定一個(gè)視頻主題,剩下的都可以自動(dòng)生成。不過它在二次編輯上的自由度和豐富性比較有限。
圖源QuickVid
此外,視頻創(chuàng)作中的特定需求也可以嘗試用AI實(shí)現(xiàn)。比如AI修復(fù)老視頻已有很多熱門案例,歷史資料、早年的影視片段都能通過“Video Enhance AI”等視頻增強(qiáng)軟件提升畫質(zhì)和分辨率。
圖源B站
讓照片說話,跨模態(tài)AI做到了
現(xiàn)在的AI只能算是輔助視頻創(chuàng)作的小助手,如果想要原創(chuàng)度更高、從無到有地快速創(chuàng)作視頻還比較困難,但更強(qiáng)大的跨模態(tài)生成視頻的模型(例如文字生成視頻,圖像生成視頻)已經(jīng)在路上了。
文字生成視頻,除了從已有素材庫中拼接而成,實(shí)際上還有更接近于人類的工作方式,就像AI繪畫模型一樣學(xué)習(xí)文本和圖像的抽象概念。
2022年5月,清華大學(xué)曾聯(lián)合智源研究院發(fā)布“CogVideo”,這是國內(nèi)首個(gè)開源的文本生成視頻模型。在其Demo網(wǎng)站中,選擇“青年女子在餐廳里喝奶茶”就可以看到AI生成的4秒視頻,分辨率為480×480。
圖源CogVideo
在設(shè)計(jì)模型上,CogVideo含94億參數(shù),將預(yù)訓(xùn)練文本-圖像模型(CogView2)有效地利用到文本-視頻模型,并使用了多幀率分層訓(xùn)練策略。
CogVideo生成的32幀的4秒剪輯
從技術(shù)本質(zhì)上來看,視頻就是一幀幀的連續(xù)圖像,AI文字生成視頻也可看作文字生成圖像的一種延伸。大致原理就是通過文本生成幾個(gè)單幀的圖像,再用插值算法在幾個(gè)幀之間繪制圖像,生成前后連貫的視頻。
之前Disco Diffusion走紅時(shí)就有玩家利用其動(dòng)畫模式生成2D或3D視頻,由此也延伸出一些使用門檻更低、創(chuàng)作更簡便的AI生成視頻應(yīng)用。
比如AI視頻網(wǎng)站“Kaiber”,用戶輸入圖像或文本描述,也可以從預(yù)設(shè)中選擇幾個(gè)詞,就能快速生成4種視頻結(jié)果。
圖源Kaiber
近期美國流行搖滾樂隊(duì)Linkin Park發(fā)布的新MV《Lost》,就是由Kaiber為其制作的動(dòng)畫。
圖源《Lost》
不過目前跨模態(tài)生成視頻的AI模型仍處于探索階段,谷歌、Meta等大廠去年都發(fā)布了相關(guān)研究論文,只有演示案例,具體產(chǎn)品還未上線。
據(jù)Meta官網(wǎng)介紹,“Make-A-Video”加速了文本到視頻模型的訓(xùn)練(它不需要從頭開始學(xué)習(xí)視覺和多模態(tài)表示),也不需要成對的文本-視頻數(shù)據(jù),卻可以實(shí)現(xiàn)豐富的文字生成視頻,圖像生成視頻(讓單個(gè)圖像或兩個(gè)圖像間動(dòng)起來),以及改變原始視頻的風(fēng)格。
圖源Make-A-Video
谷歌發(fā)布的“Imagen Video”和“Phenaki”也能實(shí)現(xiàn)類似以上的效果,并且Phenaki可以根據(jù)一系列提示生成2分鐘以上的長視頻。
太空行走的煙花
使用的提示:
宇航員穿過火星上的水坑的側(cè)視圖
宇航員在火星上跳舞 宇航員
在火星上遛狗
宇航員和他的狗看煙花
圖源Phenaki
人工智能公司Runway曾參與構(gòu)建了第一個(gè)版本的Stable Diffusion,最近他們又發(fā)布了一個(gè)新的視頻生成器“Gen-1”,即將開放內(nèi)測,宣稱可以把視頻轉(zhuǎn)換成任意風(fēng)格。
根據(jù)Gen-1官網(wǎng)演示,用戶提供一張參考圖,就能對原視頻進(jìn)行指定風(fēng)格化的渲染,或者用文字指示修改視頻中的部分素材,甚至還可以輸出3D模型渲染和定制視頻。
圖源Gen-1
在AI生成3D短視頻方面,近期國內(nèi)的深氧科技完成了千萬元級天使輪融資,引入GPT3.5、Transformer、Diffusion Model等AI技術(shù)紅利,其發(fā)布的O3.xyz引擎V1.0版本支持一站式生成3D短視頻內(nèi)容,百萬粉博主“特效卡卡西”等創(chuàng)作者已加入內(nèi)測。
可見跨模態(tài)AI生成視頻正在加速發(fā)展中, “用嘴做視頻”,未來在短視頻、影視、設(shè)計(jì)、游戲、電商等諸多行業(yè)都存在應(yīng)用的可能。
回到開頭提到的“D-ID”,生成數(shù)字人/虛擬分身也屬于圖像生成視頻的一種類型,這類工具目前在企業(yè)培訓(xùn)和營銷方面的應(yīng)用案例比較多。
2020年推出的AI視頻創(chuàng)作產(chǎn)品“Synthesia”顯示已有數(shù)千家公司在使用,用戶可以從現(xiàn)有演員庫中選擇或上傳自己的視頻來創(chuàng)建AI形象,然后輸入腳本,讓AI配音、拼接素材就能輸出視頻了。
圖源Synthesia
Synthesia通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來達(dá)成逼真的合成效果,相比傳統(tǒng)視頻制作來說,減少了真人出鏡錄制等環(huán)節(jié),能節(jié)省制作費(fèi)用和周期,而且能一鍵生成多國語言的視頻,便于本土化服務(wù)。因此,企業(yè)多用于大規(guī)模生成員工培訓(xùn)、產(chǎn)品入門演示、市場營銷等視頻。
D-ID則在更早以前就開始研發(fā)圖像處理技術(shù),曾與MyHeritage合作推出“深度懷舊”計(jì)劃而聞名,借助AI工具,用戶可以讓已故親人的靜態(tài)照片變成栩栩如生的動(dòng)態(tài)視頻。
最近乘著ChatGPT的熱潮,多種AI工具組合制作的視頻被更多人看見了,D-ID的體驗(yàn)門檻較低,即使是不懂視頻創(chuàng)作的新手,只要上傳一張圖片,幾分鐘內(nèi)就可以生成有人物解說的視頻。
圖源D-ID
D-ID自動(dòng)為人物添加了一系列面部動(dòng)作,會模擬一些輕微的頭部運(yùn)動(dòng),不過有時(shí)表情顯得有點(diǎn)怪異,太逼真的照片可能會令人產(chǎn)生“恐怖谷”的反應(yīng)。
同時(shí),用戶無法上傳涉及政治、性、犯罪、名人、歧視性圖像,D-ID會提示違規(guī)風(fēng)險(xiǎn)。這意味著AI生成視頻技術(shù)同其他生成內(nèi)容一樣會面臨版權(quán)、倫理等問題。
下一波AIGC浪潮,我們?nèi)绾螒?yīng)對
去年Stability AI的CTO Tom Mason曾判斷,繼文字生成圖像后,下一波浪潮肯定是視頻、音頻和3D。
當(dāng)AI可以寫文章、畫畫、做視頻,試圖包攬大部分創(chuàng)作任務(wù)時(shí),人類接下來該做什么呢?
這里僅談?wù)勎业乃伎迹紫燃夹g(shù)人員可以繼續(xù)開發(fā)和完善AI模型。在TikTok的官網(wǎng)上,已經(jīng)掛出了AIGC方向機(jī)器學(xué)習(xí)工程師的招聘需求。
圖源TikTok Career
TikTok表示,“AIGC最近的突破使我們相信可以將AIGC技術(shù)用于商業(yè)目的,尤其是創(chuàng)意制作。想想AI生成/輔助的廣告創(chuàng)意腳本,甚至是AI生成的商業(yè)圖像和視頻,它們將永遠(yuǎn)改變創(chuàng)意制作行業(yè)。”
當(dāng)下的AI視頻模型還不能很快生成像AI繪圖那樣高質(zhì)量的作品 ,比如存在視頻模糊、動(dòng)作不自然、缺少細(xì)節(jié)等問題。但隨著國內(nèi)AIGC的技術(shù)發(fā)展,相關(guān)場景應(yīng)用生態(tài)可能有很大的想象空間,包括上文提到的一些AI技術(shù)公司目前已經(jīng)開始提供付費(fèi)服務(wù)了,為個(gè)人和企業(yè)有針對性地提高內(nèi)容生產(chǎn)效率。
對于內(nèi)容創(chuàng)作者來說,與其擔(dān)憂會不會被AI取代,不如去學(xué)習(xí)認(rèn)識和使用AI工具,讓AI代替重復(fù)性的瑣碎工作,將更多時(shí)間花在自己的核心優(yōu)勢上,產(chǎn)生更高質(zhì)量的內(nèi)容。
的確有了AI的加入,內(nèi)容競爭會愈發(fā)激烈。有創(chuàng)作者說D-ID出現(xiàn)后,“所有念稿式、新聞播報(bào)式的純搬運(yùn)類視頻都將受到巨大沖擊”。
從用戶角度出發(fā),我想只要是高質(zhì)量內(nèi)容,即使是AI批量生成的又如何?我們擔(dān)憂的其實(shí)是低質(zhì)內(nèi)容的泛濫。
平臺和用戶都需要避免AI被濫用,比如生成虛假、仇恨、歧視或有害的內(nèi)容,甚至是引發(fā)詐騙等犯罪行為。谷歌曾提到出于安全和倫理的考慮,在Imagen Video的內(nèi)部試驗(yàn)中應(yīng)用了輸入文本提示過濾和輸出視頻內(nèi)容過濾,但目前仍存在重要的相關(guān)風(fēng)險(xiǎn),暫時(shí)不會發(fā)布兩個(gè)視頻生成模型的代碼或Demo。
總之,AI技術(shù)一方面大大降低了從文本到視頻內(nèi)容創(chuàng)作的門檻,另一方面AIGC也推動(dòng)著內(nèi)容行業(yè)革新,目前至少能達(dá)到一定程度的降本增效,但發(fā)展初期還未建立起新的規(guī)則和秩序,最終如何改變行業(yè)還得看人的作用。
P.S.:本文提及的部分AI視頻工具網(wǎng)址,可以關(guān)注“ 新榜 ”,在公眾號對話框回復(fù)“ AI視頻 ”獲取。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。