訂閱
糾錯(cuò)
加入自媒體

爆“卷”的AI視頻,大廠向左,創(chuàng)企向右

文|白 鴿

編|王一粟

“生成的人物一轉(zhuǎn)身就變成老外,怎么解決呢?”

“沒(méi)有辦法,10s中動(dòng)作大的,人物一致性有問(wèn)題,只能抽卡,多刷幾個(gè),選擇一個(gè)變化不大的。”

在一個(gè)以Ruanway學(xué)院為主題的群中,不斷有各種針對(duì)AI視頻生成的問(wèn)題產(chǎn)生,而群內(nèi)有AI視頻生成使用經(jīng)驗(yàn)的,則也在積極分享自己的使用方法論,并解答相關(guān)問(wèn)題。

這樣的AI視頻生成相關(guān)的群聊并不在少數(shù),且每個(gè)群都相當(dāng)活躍,大部分用戶對(duì)AI視頻生成工具都保持了相當(dāng)高的興趣,并在各種平臺(tái)上分享自己基于AI視頻生成工具所創(chuàng)造出的視頻內(nèi)容。

國(guó)內(nèi)用戶積極對(duì)AI視頻生成工具探索和使用的背后,是今年2月份Sora的發(fā)布,作為行業(yè)發(fā)展風(fēng)向標(biāo),徹底引爆了國(guó)內(nèi)AI視頻大模型生成賽道。

3月字節(jié)跳動(dòng)旗下剪映Dreamina(即夢(mèng))開(kāi)放內(nèi)測(cè);4月,AI企業(yè)生數(shù)科技發(fā)布號(hào)稱首個(gè)國(guó)產(chǎn)自研視頻生成大模型Vidu;6月,快手可靈AI正式開(kāi)放內(nèi)測(cè)。

7月,商湯推出最新AI視頻模型 Vimi,阿里達(dá)摩院也發(fā)布AI視頻創(chuàng)作平臺(tái)“尋光”,愛(ài)詩(shī)科技則發(fā)布PixVerse V2,快手可靈宣布基礎(chǔ)模型再次升級(jí),并全面開(kāi)放內(nèi)測(cè),而智譜AI也宣布AI生成視頻模型清影(Ying)正式上線智譜清言。

同時(shí),這些AI視頻大模型生成工具大部分都已經(jīng)向公眾開(kāi)放使用。7月30日,生數(shù)科技的AI視頻大模型Vidu也正式面向全球公眾開(kāi)放使用。

歷經(jīng)大半年,國(guó)內(nèi)大模型賽道終于進(jìn)入Sora時(shí)刻。從AI跳舞、火柴人,到5秒~16秒的高質(zhì)量視頻生成,AI視頻大模型的生成能力整體都邁入了下一個(gè)階段。

不過(guò),相比于至今仍未開(kāi)放的Sora,中國(guó)的AI視頻大模型已然開(kāi)啟加速模式。在技術(shù)能力不斷迭代升級(jí)的同時(shí),還在持續(xù)進(jìn)行技術(shù)應(yīng)用和商業(yè)化落地探索。

事實(shí)上,相比于ChatGPT等聊天機(jī)器人,AI視頻生成大模型作為一個(gè)具有工具屬性的產(chǎn)品,天然就具備商業(yè)化變現(xiàn)能力,現(xiàn)階段開(kāi)放給公眾使用的AI視頻生成工具也皆采用付費(fèi)模式。

如智譜清影上線的定價(jià)策略是:首發(fā)測(cè)試期間,所有用戶均可免費(fèi)使用;付費(fèi)5元,解鎖一天(24小時(shí))的高速通道權(quán)益,付費(fèi)199元,解鎖一年的付費(fèi)高速通道權(quán)益。

不過(guò),當(dāng)前AI視頻生成賽道的商業(yè)化仍處于非常早期階段。

“說(shuō)實(shí)話,我們也不知道未來(lái)商業(yè)策略會(huì)是什么樣,或什么形式最好,目前所謂的收費(fèi)策略更多是一種早期嘗試,試試看市場(chǎng)和用戶反饋,后面會(huì)及時(shí)調(diào)整。”智譜AI CEO張鵬如此說(shuō)道。

AIGC智能創(chuàng)意平臺(tái)筷子科技創(chuàng)始人兼CEO陳萬(wàn)鋒也表示:“目前C端用戶基于AI視頻大模型平臺(tái)開(kāi)發(fā)出的視頻應(yīng)用指向型不強(qiáng),這些平臺(tái)也并不知道C端用戶將會(huì)如何使用這些視頻。”

從技術(shù)的迭代更新,到探尋技術(shù)的應(yīng)用和商業(yè)化變現(xiàn),國(guó)內(nèi)AI視頻生成賽道玩家們無(wú)疑是在加足馬力狂奔。但從當(dāng)前行業(yè)現(xiàn)狀來(lái)說(shuō),卻也仍存在諸多挑戰(zhàn)。

AI視頻軍備競(jìng)賽,都在“卷”什么

用AI生成視頻,并不是新物種,只不過(guò)此前AI視頻生成的時(shí)長(zhǎng)一直卡在2s-4s,且整體視頻生成效果體驗(yàn)并不足夠令人驚艷。

Sora一發(fā)布,則直接展示了其生成的1分鐘視頻,且其視頻所展示的畫面效果驚人,就算在視頻動(dòng)態(tài)運(yùn)動(dòng)情況下,隨著空間的移動(dòng)和旋轉(zhuǎn),視頻中出現(xiàn)的人物和物體也會(huì)保持場(chǎng)景一致性移動(dòng)。

Sora展示的視頻內(nèi)容

這可以說(shuō)震驚了整個(gè)AI屆。Sora背后的技術(shù)架構(gòu),也被業(yè)界所了解并跟進(jìn)。

此前AI視頻生成的技術(shù)路線主要有2大類:

一類是Diffusion Model(擴(kuò)散模型技術(shù)路線),主要玩家包括Runway、Pika Labs等。

一類是基于Transformer架構(gòu)的大語(yǔ)言模型生成視頻技術(shù)路線。

去年12月底,谷歌發(fā)布了基于大語(yǔ)言模型的生成式AI視頻模型VideoPoet,這在當(dāng)時(shí)被視為生成視頻領(lǐng)域中,擴(kuò)散模型之外的另外一種解法和出路。

Diffusion Model將一張圖片通過(guò)引入噪聲使其變成原始馬賽克,在通過(guò)引入“神經(jīng)網(wǎng)絡(luò)”,如基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的UNet結(jié)構(gòu),從某個(gè)時(shí)間點(diǎn)的畫面,減去預(yù)測(cè)的噪音,得到的就是最原始沒(méi)有噪音的畫面,也就是最終生成的畫面。

大語(yǔ)言模型則是通過(guò)視頻數(shù)據(jù)來(lái)對(duì)大模型進(jìn)行訓(xùn)練,使其能夠理解視頻數(shù)據(jù)中的基本Token詞匯以及所對(duì)應(yīng)的視頻畫面。當(dāng)用戶給予指令詞之后,其就能夠根據(jù)學(xué)習(xí)到的Token詞匯生成對(duì)應(yīng)的視頻內(nèi)容。

兩種技術(shù)路線都存在各自的優(yōu)劣勢(shì),單一模型所生成的視頻在時(shí)長(zhǎng)和畫面效果上,都難以實(shí)現(xiàn)根本性突破。Sora則選擇了將擴(kuò)散模型和Transformer模型結(jié)合的技術(shù)架構(gòu)體系-DiT(Diffusion + Transformer )架構(gòu)。

有業(yè)內(nèi)觀點(diǎn)認(rèn)為,Sora是將Diffusion擴(kuò)散模型中的U-Net架構(gòu)替換成了Transformer架構(gòu)。

兩者的結(jié)合效果,一個(gè)AI從業(yè)者形象的解釋為:擴(kuò)散模型就像是一個(gè)雕塑過(guò)程,將石料上不應(yīng)該存在的部分去掉,創(chuàng)造出雕塑作品。而Transformer通過(guò)自注意力機(jī)制,理解時(shí)間線之間的關(guān)聯(lián),則讓這尊雕塑從石座上走了下來(lái)。

AIGC創(chuàng)業(yè)者洋芋醬AIgen(藝名)也認(rèn)為:“視頻是一幀一幀的圖像,采用UNet結(jié)構(gòu)的邏輯是按照生產(chǎn)圖像的方式做視頻,AI每生成一張圖像都是隨機(jī)的,所以整個(gè)畫面看起來(lái)很閃。而用視頻訓(xùn)練的AI,其產(chǎn)出的畫面就相對(duì)穩(wěn)定,不會(huì)狂閃,具有合理的連續(xù)的幀。”

因此,Sora發(fā)布之后,DiT技術(shù)架構(gòu)也成AI視頻玩家的主流技術(shù)架構(gòu),并將其視為通往AGI的關(guān)鍵技術(shù)。

目前,市面上主流AI視頻工具在生成4秒-10s左右的視頻片段。

生數(shù)科技此次Vidu開(kāi)放文生視頻、圖生視頻兩個(gè)功能,提供4s和8s兩種時(shí)長(zhǎng)選擇,分辨率最高達(dá)1080P。在速度上,生成一段4秒片段的實(shí)測(cè)推理速度只需30秒。

愛(ài)詩(shī)科技的PixVerse V2,可支持生成單個(gè)時(shí)長(zhǎng)8s的片段,且支持一鍵生成1-5段連續(xù)的視頻內(nèi)容,片段之間也會(huì)自動(dòng)保持主體形象、畫面風(fēng)格和場(chǎng)景元素的一致性。

智譜AI的智譜清影可生成6秒的視頻,時(shí)間只要30秒左右,清晰度可達(dá)1440x960(3:2)。

快手可靈生成的視頻時(shí)長(zhǎng)在5s,但其有將視頻時(shí)長(zhǎng)延長(zhǎng)的功能,可以將視頻時(shí)長(zhǎng)延長(zhǎng)至10s,但在生成視頻的速度上,卻相對(duì)較慢,往往需要2-3分鐘時(shí)間。

從技術(shù)的積累上來(lái)看,雖然都在布局DiT架構(gòu),但國(guó)內(nèi)AI視頻生成企業(yè)還處于追趕階段,AI視頻生成的時(shí)長(zhǎng)和效果,尚未達(dá)到Sora的水平。

張鵬也坦言:“Sora的演示效果不錯(cuò),我們還是一個(gè)初步的階段性成果,達(dá)不到像Sora演示出來(lái)那么好、那么長(zhǎng)的視頻。我們從來(lái)都很坦誠(chéng)承認(rèn)與OpenAI、和世界頂級(jí)水平之間的差距。”

但國(guó)產(chǎn)大模型也在堅(jiān)持用自己的方式追趕OpenAI,比如“怎么把視頻生成算力成本降下來(lái),響應(yīng)速度提升上去,我們?cè)谧非蠹夹g(shù)高度的同時(shí),也同步追求技術(shù)的可普及性和成本。”張鵬說(shuō)。

無(wú)疑,技術(shù)上國(guó)內(nèi)AI視頻大模型賽道玩家還在追趕,但在應(yīng)用和商業(yè)化上卻已然走在前列。

圖生視頻成主流,不穩(wěn)定、一致性仍是問(wèn)題

在技術(shù)架構(gòu)升級(jí)之后,現(xiàn)如今的AI視頻生成的視頻效果與時(shí)長(zhǎng),已經(jīng)與年初有了本質(zhì)的區(qū)別。

當(dāng)前,各AI視頻大模型產(chǎn)品主要提供2大核心能力,一個(gè)是文生視頻,一個(gè)是圖生視頻。兩個(gè)核心功能的工作流并不一致,文生視頻可通過(guò)一句指令生成一個(gè)想要的視頻。

而圖生視頻的工作流更為復(fù)雜,要先用文字指令詞通過(guò)Midjourney或Stable Diffusion等工具生成自己想要的圖片,再基于圖片通過(guò)AI視頻生成工具生成視頻內(nèi)容。

于普通的業(yè)務(wù)愛(ài)好者而言,想要體驗(yàn)AI視頻生成效果,文生視頻功能已經(jīng)夠用。

但對(duì)于想要基于此進(jìn)行視頻內(nèi)容商業(yè)化交付的從業(yè)者而言,“基本上,沒(méi)有人用文生視頻。”星賢文化創(chuàng)始人、AI原創(chuàng)玄幻IP《山海奇鏡》制作人陳坤對(duì)光錐智能說(shuō)道。

對(duì)此,陳坤解釋到,文生視頻無(wú)法保持前后內(nèi)容的一致性。就單個(gè)鏡頭來(lái)說(shuō),文生視頻可以滿足要求,會(huì)很好看,很驚喜,但卻無(wú)法保證下一個(gè)鏡頭與前一個(gè)鏡頭的一致性。畢竟AI技術(shù)尚不能通過(guò)一段文字描述就能夠讓人物和空間美學(xué)保持一致性。

“為了保持作品風(fēng)格的一致性或者人物的一致性,必須用圖生視頻控制住畫面里的內(nèi)容。”洋芋醬AIgen也如此說(shuō)道。

去年12月,陳坤帶領(lǐng)團(tuán)隊(duì)利用 PixVerse 制作《山海奇鏡之劈波斬浪》的4K分辨率預(yù)告片。

圖片來(lái)自:《劈波斬浪》

今年7月13日,陳坤基于快手可靈大模型重新打磨的《山海奇鏡之劈波斬浪》正式上線快手平臺(tái),19日單日播放量達(dá)到了2026.7萬(wàn),上線十天累計(jì)播放量達(dá)到了5164.9萬(wàn),后續(xù)榮登德塔文短劇指數(shù)榜第一。

在陳坤看來(lái):“半年前,AI影視很難用生動(dòng)的表演表現(xiàn)復(fù)雜敘事,很多的動(dòng)作場(chǎng)面也需要通過(guò)蒙太奇的剪輯來(lái)實(shí)現(xiàn),在制作過(guò)程中,由于3—4秒的單個(gè)鏡頭時(shí)長(zhǎng)限制(在當(dāng)時(shí)就是這個(gè)時(shí)長(zhǎng)),整個(gè)片子的節(jié)奏感會(huì)受到影響。”

“就AI影視賽道來(lái)看,可靈的能力確實(shí)很厲害,既有文生視頻,也有圖生視頻,且其畫面中的動(dòng)作幅度展示都很不錯(cuò)。”陳坤如此說(shuō)道,“不過(guò),每家AI視頻生成工具都有自己的特點(diǎn),比如Runway,它的Gen3鏡頭偏電影感,盡管之前只有文生視頻功能,但很多創(chuàng)作者也很喜歡用,F(xiàn)在它也推出了圖生視頻功能”

作為一個(gè)資深玩家,洋芋醬AIgen也認(rèn)為:“目前最好用的是可靈、luma 和Runway。”另一位影視從業(yè)者琪琪(化名)則表示,Sora的整體效果應(yīng)該最好,但其并未開(kāi)放。

不過(guò),在實(shí)際的體驗(yàn)過(guò)程中,雖然現(xiàn)階段相比于半年前在視頻時(shí)長(zhǎng)和效果上有了質(zhì)的飛躍,但仍存在畫面人物變形、畫面不穩(wěn)定以及前后不一致性等問(wèn)題。

總結(jié)下來(lái),從業(yè)者在使用AI視頻時(shí),主要有5大痛點(diǎn):包括人物一致性,場(chǎng)景一致性,人物表演,動(dòng)作交互,運(yùn)動(dòng)幅度等。

“由于大模型技術(shù)并不完善,在視頻生成過(guò)程中畫面不可避免的產(chǎn)生畸變。”陳坤稱。

對(duì)此,行業(yè)從業(yè)者就會(huì)通過(guò)不停“抽卡”(讓AI不斷自主隨機(jī)生成相關(guān)畫面)的方式,最終得到一個(gè)相對(duì)滿意的效果畫面。

“即便我們用可靈,在一個(gè)火神和水神打架的鏡頭上,還‘抽卡’不下100次,但也并未抽到我特別滿意的鏡頭,后來(lái)實(shí)際用的畫面其實(shí)也是帶了一定畸變的。”陳坤說(shuō)道。

從現(xiàn)階段的技術(shù)手段來(lái)看,短期內(nèi)可能無(wú)法解決這一問(wèn)題。張鵬認(rèn)為:“最簡(jiǎn)單的可控,就是我說(shuō)什么模型做什么,而想要實(shí)現(xiàn)這一可控,強(qiáng)烈依賴于模型能不能夠理解這個(gè)內(nèi)容,而這也是多模態(tài)大模型發(fā)展的初衷。”

用發(fā)展中的技術(shù)去解決發(fā)展中的問(wèn)題,將是AI視頻大模型未來(lái)發(fā)展迭代升級(jí)的關(guān)鍵。“內(nèi)容生成,尤其是視頻內(nèi)容生成,絕大部分情況下還是由‘人用語(yǔ)言描述’的方式來(lái)控制。從自然語(yǔ)言到視頻生成,這才是真正的可控,更高層面的可控,這是技術(shù)層面的事情。”張鵬如此說(shuō)道。

現(xiàn)階段AI視頻大模型技術(shù)仍處于比較早期階段,并未有任何一家AI視頻生成工具爬到了山頂。而在各家攀登山頂?shù)倪^(guò)程中,生態(tài)體系的建設(shè)以及商業(yè)化變現(xiàn)也成為關(guān)鍵。

黃金賽道的起點(diǎn)

“技術(shù)應(yīng)用到行業(yè)的速度,遠(yuǎn)慢于技術(shù)自身的發(fā)展。”陳萬(wàn)鋒如此說(shuō)道,“AI技術(shù)發(fā)展很快,但滲透到產(chǎn)業(yè)中,產(chǎn)生價(jià)值的速度可能要慢十倍。”

純技術(shù)路線發(fā)展的角度來(lái)看,從單模態(tài),到多模態(tài),最終的目標(biāo)是達(dá)成AGI。但將AI進(jìn)行產(chǎn)業(yè)化落地應(yīng)用,與技術(shù)升級(jí)迭代是兩碼事。

現(xiàn)階段,國(guó)內(nèi)眾多大模型公司的技術(shù)追趕已經(jīng)過(guò)了一個(gè)階段,將會(huì)把更多的精力聚焦在落地和應(yīng)用上,通過(guò)與場(chǎng)景的結(jié)合,數(shù)據(jù)的反饋,再推進(jìn)底層技術(shù)迭代升級(jí)。

而相比于ChatGPT這種聊天機(jī)器工具,AI視頻生成則是大模型技術(shù)商業(yè)化落地的黃金賽道。

之所以說(shuō)其是黃金賽道,主要基于兩個(gè)方面:

一個(gè)是作為AI視頻生成工具,其天然具有收費(fèi)優(yōu)勢(shì)。

目前大多數(shù)AI視頻生成工具,面向C端用戶采用的是會(huì)員體系。以可靈為例,其目前會(huì)員共分為黃金、鉑金、鉆石三個(gè)類別,優(yōu)惠后三檔月卡的價(jià)格分別為33元、133元和333元,對(duì)應(yīng)分別獲得660、3000 、8000“靈感值”,可生成約66個(gè)、300個(gè)或800個(gè)標(biāo)準(zhǔn)視頻。

面向B端企業(yè)級(jí)用戶,則可以支持通過(guò)調(diào)用API的方式進(jìn)行收費(fèi)。如智譜AI,其除了會(huì)員制收費(fèi)方式外,還在開(kāi)放平臺(tái)開(kāi)放了API,收入一定的費(fèi)用。

另外一個(gè)方面,AI視頻生成工具讓創(chuàng)作者和消費(fèi)者之間的界限變得模糊,尤其是快手和抖音平臺(tái)上,這些視頻博主屬于C端消費(fèi)者,但其又可以基于AI視頻工具進(jìn)行視頻創(chuàng)作,變成B端視頻生產(chǎn)方。光錐智能認(rèn)為,“大C小B的消費(fèi)者是很重要的,甚至可能是最重要的,ToB和ToC的界限越來(lái)越模糊。”

不過(guò),從商業(yè)化生態(tài)角度來(lái)講,大廠和創(chuàng)企在變現(xiàn)的思路上也并不一致。

像抖音、快手這種已經(jīng)行業(yè)頭部視頻平臺(tái),其可以依托自身海量的用戶,通過(guò)提供AI視頻生成工具,讓用戶通過(guò)這一工具創(chuàng)作相關(guān)內(nèi)容,豐富自己視頻生態(tài)體系。

“大廠不需要賣工具,而是通過(guò)用戶進(jìn)行商業(yè)化變現(xiàn)。”陳萬(wàn)鋒如此說(shuō)道,“C端為應(yīng)用付費(fèi)模式(對(duì)創(chuàng)業(yè)公司來(lái)講)在國(guó)內(nèi)并不現(xiàn)實(shí),未來(lái)或許只有巨頭才有機(jī)會(huì),因?yàn)槠溆脩魯?shù)量龐大。”

與此同時(shí),對(duì)于現(xiàn)階段各平臺(tái)采取的會(huì)員制收費(fèi)方式,陳坤堅(jiān)定地對(duì)光錐智能表示:“我不看好這個(gè)會(huì)員制,現(xiàn)在即便再便宜,也只對(duì)真正能夠商業(yè)化閉環(huán)的創(chuàng)作者有效。如果不是一個(gè)商業(yè)化閉環(huán)的創(chuàng)作者,后續(xù)的付費(fèi)率和付費(fèi)意愿都不會(huì)很高。”

陳坤對(duì)此解釋道,一方面C端收取的會(huì)員制費(fèi)用相對(duì)于大廠研發(fā)九牛一毛,都不夠大模型訓(xùn)練一次。另一方面,一旦AI視頻大模型技術(shù)達(dá)到天花板,這些巨頭一定會(huì)進(jìn)行價(jià)格戰(zhàn),目的就是為了搶奪用戶數(shù)量,“大廠最終一定會(huì)選擇用戶數(shù)量,而不是去賺這些錢。”

因此,于大模型創(chuàng)企來(lái)說(shuō),如果單純的是賣工具,“在中國(guó)只能ToB不能ToC。”陳坤如此說(shuō)道,“而只有面向企業(yè)端,才是能夠商業(yè)化變現(xiàn)的唯一方式。”

而企業(yè)端愿意為其付費(fèi)的原因,則在于其能夠?qū)崿F(xiàn)視頻的商業(yè)化交付,產(chǎn)生營(yíng)收,能夠支持其對(duì)應(yīng)的成本支出。

比如陳坤通過(guò)AI短劇進(jìn)行商業(yè)變現(xiàn),洋芋醬AIgen則會(huì)根據(jù)客戶的視頻內(nèi)容需求,為客戶制作AI視頻內(nèi)容,“最高一個(gè)月能接8單客戶需求,平均每個(gè)月有3-4單。”

而筷子科技,是通過(guò)AI視頻的生產(chǎn)工作流和短視頻平臺(tái)的投放結(jié)合,來(lái)賺品牌的應(yīng)用工具及服務(wù)的錢。

基于此,不難看出,在AI視頻的商業(yè)化中,C端還是巨頭會(huì)更成功,創(chuàng)業(yè)者的機(jī)會(huì)則在B端。面向未來(lái),快手視覺(jué)生成與互動(dòng)中心負(fù)責(zé)人萬(wàn)鵬飛也表示,隨著大模型技術(shù)能力的提升,視頻創(chuàng)作者和消費(fèi)者的界限逐漸模糊,促進(jìn)視頻平臺(tái)生態(tài)繁榮。

       原文標(biāo)題 : 爆“卷”的AI視頻,大廠向左,創(chuàng)企向右

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)