訂閱
糾錯
加入自媒體

AIGC重塑數(shù)字人:落地、變革、永生

2023-05-17 13:36
VR陀螺
關注

文/VR陀螺 豌豆

AIGC(生成式人工智能)在全球范圍內(nèi)火了一把,據(jù)瑞銀發(fā)布的一份研究報告顯示,自ChatGPT推出兩個月后,月活躍用戶估計已達1億,成為歷史上增長最快的消費應用。

圖源:Google Trends

創(chuàng)造了多項“神話”的AIGC,一度引發(fā)全民對“被替代”“被失業(yè)”的擔憂,以快速成長的ChatGPT為代表的大模型自然也受到了各企業(yè)的關注,百度推出“文心一言”以來,大模型遍地開花,包括華為、阿里、京東、商湯等科技公司陸續(xù)推出了各自的大模型項目。

面對日益興起的AIGC,國家互聯(lián)網(wǎng)信息辦公室就《生成式人工智能服務管理辦法(征求意見稿)》(以下簡稱《征求意見稿》)向社會公開征求意見。整體來看,《征求意見稿》更多的是為規(guī)范我國人工智能、算法等行業(yè)的發(fā)展帶來了更為細致且明確的規(guī)范指導。

AIGC有著能在各行各業(yè)賦能的強大功能,ChatGPT富有創(chuàng)造性的對話讓人不禁遐想,在元宇宙時代,數(shù)字人將成為非常關鍵的角色,AIGC與數(shù)字人的結合又會對現(xiàn)實世界帶來怎樣的變化?

 數(shù)字人走向各行各業(yè),AI方向前景廣闊 

據(jù)IDC發(fā)布的《中國AI數(shù)字人市場現(xiàn)狀與機會分析2022》報告中,預計到2026年中國AI數(shù)字人市場規(guī)模將達到102.4億元人民幣。可見AI數(shù)字人前景之廣闊。

圖源:IDC

數(shù)字人最初應用于影視、游戲行業(yè),隨后落地到各行各業(yè),在應對更復雜的情況時,人們對數(shù)字人的信息處理能力、即時互動能力以及表達能力等需要有更高的要求。

陀螺研究院發(fā)布《2023年全球虛擬數(shù)字人產(chǎn)業(yè)報告》,其指出虛擬數(shù)字人的每個發(fā)展階段與時代背景,技術有緊密聯(lián)系,至今已邁入成長階段,2023年Open AI推出的聊天機器人ChatGPT,與真人之間展開“靈活機智”對話,給由AI驅(qū)動的虛擬數(shù)字人描繪了極大創(chuàng)作及交互想象空間,伴隨著ChatGPT成熟應用,虛擬數(shù)“智”人將走向大眾生活。

圖源:陀螺研究院

如今AI對傳媒、影視、藝術、電商、娛樂、游戲等領域已經(jīng)產(chǎn)生了重要的影響。數(shù)字人需要更智能、更人性化,有更真實的表現(xiàn)力。

 AI賦能數(shù)“智”人,加速打破次元壁 

如果好看的外形是數(shù)字人的“名片”,那么AI將成為數(shù)字人的“內(nèi)核”。AI賦能數(shù)字人,未來能實現(xiàn)文本生成、音頻生成、圖像生成、視頻生成、3D模型生成等功能,延伸到多模態(tài)交互功能,進而實現(xiàn)跨維度升級。

在外形方面,AI技術幾乎滲入到數(shù)字人構建的各個基礎環(huán)節(jié):建模、生成、渲染、驅(qū)動、呈現(xiàn)、交互等方面,目前已經(jīng)能呈現(xiàn)高保真的“人類”外形,也能做出流暢的肢體語言,如虛幻引擎的Metahuman和數(shù)年前三星演示的NEON數(shù)字人。

NEON數(shù)字人(圖源:網(wǎng)絡)

為了提高數(shù)字人的真實度,前段時間英偉達更新了其Omniverse的AI能力,并宣稱將進一步引入對生成式AI的支持,用戶可以僅憑文本信息自動生成高質(zhì)量的材料。這一特性在Omniverse的聲音驅(qū)動面部表情的工具Audio2Face上面也有體現(xiàn)。

高保真AI數(shù)字人(圖源:英偉達)

為了演示Omniverse的新特性, Adobe Substance 3D藝術和開發(fā)團隊使用Omniverse USD Composer(前稱Create)合作創(chuàng)作了一個虛擬數(shù)字人形象。從視頻可以看到,里面的虛擬角色視效逼真,并且皮膚呈現(xiàn)了真實的光線效果,而生成式AI,則提升了面部表情以及唇形同步的質(zhì)量。相關閱讀:《AI含量極高,GTC 2023有何新動態(tài)?》

在數(shù)字人制作方面,AI的接入讓其生產(chǎn)成本進一步降低。

3月,騰訊發(fā)布全新的AI智能創(chuàng)作助手“騰訊智影”,智影數(shù)字人能實現(xiàn)“形象克隆”和“聲音克隆”,創(chuàng)作者通過上傳少量圖片、視頻和音頻素材,就能得到自己的數(shù)字人分身和定制音色,進而快速生成自己的數(shù)字人播報視頻。據(jù)介紹,騰訊智影還接入了數(shù)字人直播,可實現(xiàn)7×24小時不間斷開播。

來源:騰訊智影

商湯科技在4月的技術交流日活動上發(fā)布了大模型體系“商湯日日新大模型”,其演示了2D數(shù)字人視頻生成平臺“如影SenseAvatar”,據(jù)稱僅需一段5分鐘的真人視頻素材,就可以生成出來聲音及動作自然、口型準確、多語種精通的數(shù)字人分身。它可應用為智能直播、教學、短視頻等多種場景。

來源:商湯科技

在功能方面,結合ChatGPT的數(shù)字人不僅能完成更細致的指引、導航等信息提示服務工作,結合龐大的知識數(shù)據(jù)庫,在B端如金融、汽車、工業(yè)等場景以及C端的影視、游戲、直播等領域?qū)⒂懈蟮陌l(fā)展空間。

另外,OpenAI于今年3月發(fā)布了多模態(tài)預訓練大模型GPT-4,ChatGPT的功能有了進一步提升:擁有識圖功能;擴大文字輸入限制至2.5萬字;對話內(nèi)容準確性提高;能生成有風格變化的創(chuàng)意文本等。多模態(tài)功能將使數(shù)字人的交互、決策建議更為真實有效。

 人人都能實現(xiàn)“數(shù)字永生” 

ChatGPT發(fā)布后,大量AI工具順勢而生,在一些AIGC的門戶網(wǎng)站上甚至收錄了海內(nèi)外上千款AI應用。包括搜索引擎、文本寫作、聊天機器人、語音合成、音樂制作、繪畫生成、圖像化身、圖像合成、3D生成、視頻技術、數(shù)字虛擬人、游戲應用、無代碼創(chuàng)作等40個細分領域。幾乎人人都能創(chuàng)建符合自己需求的數(shù)字人。

圖源:AIGC中文工具導航截圖

得益于這些AI工具強大的內(nèi)容生成能力,現(xiàn)在網(wǎng)上也出現(xiàn)了不少“整活”嘗試。

前陣子AI在B站上掀起一陣華語樂壇的“賽博文藝復興”熱潮,不少UP主利用音樂大模型軟件,通過內(nèi)容編碼器提取源音頻語音特征,進行AI翻唱制作,讓歌手“唱”起來。與B站“鬼畜區(qū)”的人力調(diào)音不同,AI翻唱的效果非常真實自然,實際一聽幾乎難以分辨出是真人還是AI的聲音,甚至還能看到視頻中有不少彈幕討論起AI唱功好不好……

圖源:B站截圖

另一方面,也有人在嘗試證明AI“技術向善”。UP主吳伍六發(fā)布了一則名為“用AI工具生成我奶奶的虛擬數(shù)字人”的視頻,他嘗試用AI+照片、音頻來生成已故奶奶的數(shù)字人,并與之進行虛擬對話。

前兩年韓國 MBC 電視臺在出品大型 VR 紀錄片《見到你了》中,利用VR技術復活了7歲小女孩。

圖源:網(wǎng)絡

通過AI語音合成技術,提取小女孩生前影像音頻。同時找來5個同齡的孩子錄制上百條音頻作為補充,最終復原成功小女孩的聲音。再結合3D建模,動作捕捉等技術抓取三維坐標數(shù)據(jù),初步還原小女孩外形。相關閱讀:《VR 掃墓,數(shù)字永生,技術正在重新定義“生命”》

在現(xiàn)實中不可能做到的“復活”和“永生”,卻能通過技術得以實現(xiàn),這類視頻引發(fā)了網(wǎng)友們對AI、生命、侵權、感情、寄托、人性和倫理道德的思考和討論,展現(xiàn)不同人對數(shù)字生命的理解。

 AI數(shù)字人在直播領域悄然生長 

在元宇宙中數(shù)字人已經(jīng)是有著較為成熟體系的領域,從技術到實際落地再到商業(yè)化,如今虛擬偶像、虛擬演唱會等垂直場景大行其道,而數(shù)字人直播已不是新鮮事。

圖源:IDC

在數(shù)字人商業(yè)化的道路中,無論是主打陪伴的娛樂型數(shù)字人還是以電商帶貨為主的功能服務型數(shù)字人,AI數(shù)字人在直播中的應用率正逐漸提高,然而現(xiàn)階段的數(shù)字人直播,絕大多數(shù)情況下,包括外形設計、配音、互動等都仍需要人類進行干預,AI只能實現(xiàn)一些簡單的交互。 在海外已有基于ChatGPT+VRM(3D模型)+VOICEVOX(文本轉(zhuǎn)語音軟件)創(chuàng)建聊天型人工智能的案例。例如OshaberiAI,這是一款允許用戶創(chuàng)建養(yǎng)成型角色并與之聊天的應用程序,通過設計對ChatGPT的提示(指令),為數(shù)字人設定各種個性和語氣,與用戶進行簡單的聊天交互。

圖源:推特

目前該應用已上線AppStore,此前該開發(fā)者也在AR+數(shù)字人導航方面做了一些嘗試,推出了“ARCharaNavi”,用戶在應用中設定好目的地之后,數(shù)字人會根據(jù)選擇好的路線在屏幕中的路線前方帶領用戶前行。

而AI數(shù)字人的強大勝在可控性高,模式可復制,能7×24小時保持在線,在直播領域成了不少電商品牌的“新歡”。

中國互聯(lián)網(wǎng)絡信息中心日前發(fā)布的第51次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截至2022年12月,中國網(wǎng)民規(guī)模達10.67億,短視頻用戶規(guī)模達10.12億,短視頻用戶滲透率高達94.8%,而網(wǎng)絡直播用戶規(guī)模達7.51億。

有了龐大的直播受眾,投身于電商直播的AI數(shù)字人表現(xiàn)如何?成本低是品牌方選用數(shù)字人進行直播的一大因素,某品牌直播間售價和數(shù)字人服務定價,粗略計算后日均花費大約在600元左右,相比于聘請真人主播,能大幅減少支出成本。

目前在電商直播領域,AI數(shù)字人通常在夜間至凌晨直播,彌補真人主播休息期間的空缺,盡可能獲取更多閑時流量,F(xiàn)階段用戶可以通過關鍵詞觸發(fā)與數(shù)字人關于商品的交互,要讓AI數(shù)字人執(zhí)行更細致的指令和互動還有一定難度。

圖源:抖音網(wǎng)頁版截圖

而在短視頻平臺,已有不少AI數(shù)字人嘗新開設全天無休的直播間,實際上這類重復相似對話內(nèi)容的直播間熱度并不高,如果有明星IP加入,則會帶來更顯著的引流效果。例如樂華七子的黃新淳,基于他本人的形象設計了數(shù)字人分身,結合AI算法來控制數(shù)字人的動作和表情,還能正常與粉絲進行互動。

AI數(shù)字人在視覺效果和語音上越發(fā)真實,也就意味著人們將更加難以辨別真人與“數(shù)字人”,且絕大部分人是第一次接觸AIGC內(nèi)容,為了避免更多的AI內(nèi)容對觀眾造成誤解,不少視頻平臺發(fā)布了相關平臺規(guī)范。

抖音APP官方公眾號于近期發(fā)布《抖音關于人工智能生成內(nèi)容的平臺規(guī)范暨行業(yè)倡議》一文,指出“各生成式人工智能技術的提供者,均應對生成內(nèi)容進行顯著標識,以便公眾判斷。同時使用統(tǒng)一的人工智能生成內(nèi)容數(shù)據(jù)標準或元數(shù)據(jù)標準,便于其他內(nèi)容平臺進行識別。”

圖源:抖音APP官方公眾號

就連海外知名插畫平臺Fanbox的運營商PixivFANBOX,也宣布禁止上傳和銷售使用Midjourney 、Stable Diffusion等AI藝術工具生成的插圖,將對發(fā)布由AI創(chuàng)作作品的賬號采取措施,如發(fā)出警告、限制可見范圍、封禁賬號等。未來將會有更多平臺自發(fā)加入規(guī)范AIGC內(nèi)容的陣營中。

AI數(shù)字人在直播領域,尤其是電商板塊的落地進程加快,其變現(xiàn)能力強、操作門檻低(不少平臺推出無代碼方案)、降本增效顯著等優(yōu)勢迎合了品牌方對數(shù)字化電商直播的需求。同時,部分頭部電商直播MCN也能憑借自身在IP運營管理、平臺流量資源、品牌方資源的積累,嘗試從真人直播轉(zhuǎn)向數(shù)字人直播,提高閑時階段的收益,F(xiàn)階段的AI數(shù)字人仍有非常大的發(fā)展空間。

 結語 

在元宇宙盛行的時期,數(shù)字人還只是人們眼中的“流量明星”,背后又牽扯到高成本的動捕和中之人運營,普通人幾乎難以企及。雖然現(xiàn)階段的AI數(shù)字人仍然未達到能跟真人“搶飯碗”的能力,但成長迅速的AI正在加速數(shù)字人走向大眾的進程,而ChatGPT則是AI數(shù)字人最佳的接入口之一,為數(shù)字人的人機交互功能帶來更多落地應用機會。

       原文標題 : AIGC重塑數(shù)字人:落地、變革、永生

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號