訂閱
糾錯(cuò)
加入自媒體

當(dāng)喜馬拉雅裝上AI引擎,音頻行業(yè)還有機(jī)會(huì)嗎?

文|光錐智能 周文斌

“風(fēng)雪夜歸人”,憑這樣一句話,畫(huà)一幅水彩或者油畫(huà),需要多長(zhǎng)時(shí)間?

熟練的畫(huà)手可能需要幾個(gè)小時(shí),但AI只需要幾分鐘,甚至幾十秒。

將一篇3000字左右的文章錄制成音頻需要多長(zhǎng)時(shí)間?

經(jīng)驗(yàn)豐富的播音員一次過(guò)大概需要15分鐘,但通過(guò)AI文字轉(zhuǎn)語(yǔ)音只需要一分鐘,而且情感充沛。

近期,AI繪畫(huà)再次爆火,其快速的成長(zhǎng)速度,超高的“工作效率”都令人吃驚。而以AI繪畫(huà)為代表,如今也確實(shí)有越來(lái)越多的行業(yè)開(kāi)始通過(guò)技術(shù)手段來(lái)改變傳統(tǒng)的生產(chǎn)結(jié)構(gòu)和商業(yè)模式。

圖:ChatGPT編寫(xiě)的代碼

比如在音頻創(chuàng)作領(lǐng)域,喜馬拉雅近期公布的一則數(shù)據(jù)顯示,其用單田芳AI合成音制作的TTS(語(yǔ)音合成)專輯總播放量已經(jīng)破億。這一數(shù)據(jù),喻示著在喜馬拉雅“UGC+PGC+PUGC”內(nèi)容生態(tài)之外,又多了一個(gè)AIGC的內(nèi)容生態(tài)。

事實(shí)上,音頻行業(yè)其實(shí)一直存在著許多問(wèn)題,比如單個(gè)創(chuàng)作者創(chuàng)作形式單一、生產(chǎn)周期長(zhǎng)、內(nèi)容成本高等等。而為了突破這些問(wèn)題,音頻行業(yè)一直也都在做各種嘗試。

比如,喜馬拉雅最近上線了喜韻音坊創(chuàng)作者平臺(tái),試圖用AI為創(chuàng)作者賦能的方式,以技術(shù)手段來(lái)解決行業(yè)沉疴。恰好也是今年,喜馬拉雅的兩項(xiàng)智能語(yǔ)音技術(shù)相關(guān)論文被2022年國(guó)際音頻、語(yǔ)音與信號(hào)處理會(huì)議(ICASSP)收錄。

喜馬拉雅創(chuàng)始人兼CEO余建軍之前也提過(guò),喜馬拉雅是一家科技驅(qū)動(dòng)的內(nèi)容公司,科技是手段,文化是目的。

那么,在這次喜馬拉雅以通過(guò)科技賦能文化的過(guò)程中,又是如何改變音頻行業(yè)的呢?

01 配音小說(shuō)用AI工具一天更新上百集

“以前從來(lái)沒(méi)有想過(guò),音頻節(jié)目可以一天更新上百集!边@是喜馬拉雅的音頻主播“CV千索”用過(guò)喜韻音坊之后的感嘆。

喜韻音坊,喜馬拉雅近期上的一個(gè)創(chuàng)作者平臺(tái),它通過(guò)TTS技術(shù)幫助主播實(shí)現(xiàn)與AI共同創(chuàng)作音頻節(jié)目。“CV千索”就是通過(guò)這項(xiàng)技術(shù)在喜馬拉雅上創(chuàng)作了有聲書(shū)《史上最強(qiáng)撿漏王》,上線一個(gè)多月,播放量已經(jīng)超過(guò)300萬(wàn)。

工欲善其事必先利其器,創(chuàng)作者有了AI工具,就可以大幅提升創(chuàng)作效率,進(jìn)而提升收益。

但要打造一個(gè)好工具也并非易事,喜韻音坊對(duì)于喜馬拉雅來(lái)說(shuō),就如同剪映之于抖音,但音頻制作本身又有不同的技術(shù)難點(diǎn)。

“TTS”是將輸入的文本轉(zhuǎn)換為語(yǔ)音的技術(shù)統(tǒng)稱,在許多場(chǎng)景中都有應(yīng)用。但在不少場(chǎng)景中,比如在電話客服、機(jī)器人等身上,經(jīng)常會(huì)有冷冰冰的“機(jī)器音”讓人非!俺鰬颉。

但在音頻節(jié)目中,我們需要聲音有情緒、有溫度:聽(tīng)童話故事的時(shí)候,聲音俏皮可愛(ài);講軍旅故事的聲音,鏗鏘有力;聽(tīng)歷史故事,又需要它深沉雄渾。

“TTS音色演繹小說(shuō)非常難,需要學(xué)習(xí)小說(shuō)中的抑揚(yáng)頓挫、情感表達(dá)、上下文關(guān)系,區(qū)分旁白和對(duì)白,并最終將作品完美演繹出來(lái)!毕柴R拉雅智能語(yǔ)音實(shí)驗(yàn)室的盧恒博士表示。

因此,如何讓AI理解文本的語(yǔ)境,然后選擇適合的音色,甚至根據(jù)文本的情緒隨時(shí)轉(zhuǎn)換聲音,就是TTS針對(duì)特定場(chǎng)景進(jìn)行應(yīng)用時(shí)遇到的最大難點(diǎn)。

比如以喜馬拉雅復(fù)刻的單田芳先生的聲音為例,評(píng)書(shū)通常韻律起伏變化大,再加許多發(fā)音有自己獨(dú)特的特點(diǎn),比如“這個(gè)”中的“這”字,普通話發(fā)音“zhè”,但在評(píng)書(shū)中通常讀為“zhèi”。

這種情況,如果僅靠當(dāng)前主流的TTS框架模型做提取和合成,合成評(píng)書(shū)最終的整體感情和情緒都會(huì)很平淡,沒(méi)有了原作的跌宕起伏。

為此,喜馬拉雅智能語(yǔ)音實(shí)驗(yàn)室自主設(shè)計(jì)了單獨(dú)的韻律提取模塊,并將其融入到HiTTS技術(shù)框架中。而針對(duì)單老評(píng)書(shū)中區(qū)別于標(biāo)準(zhǔn)普通話的發(fā)音,團(tuán)隊(duì)還設(shè)計(jì)了口音模塊對(duì)這些特殊發(fā)音進(jìn)行標(biāo)注,使得AI合成音能夠原汁原味地還原出老味道。

由于技術(shù)上的創(chuàng)新,喜馬拉雅用TTS合成語(yǔ)音所制作的AIGC專輯幾乎能夠以假亂真。已經(jīng)在使用喜馬拉雅TTS錄制節(jié)目的《厲少的重生小甜妻》主播清月古箏表示:“最終的效果不錯(cuò),有人甚至沒(méi)聽(tīng)出來(lái)是AI演播的,還有人問(wèn)男主的配音是誰(shuí)。”

如今,喜馬拉雅多情感、多風(fēng)格、多語(yǔ)種聲音的TTS技術(shù)模型已經(jīng)廣泛被運(yùn)用于評(píng)書(shū)、新聞、小說(shuō)、財(cái)經(jīng)等多種類型AIGC內(nèi)容的制作中。

除了HiTTS技術(shù)在聲音韻律上的優(yōu)化之外,跨語(yǔ)言語(yǔ)音合成在TTS中也非常重要,畢竟僅在中國(guó)境內(nèi)就有129種語(yǔ)言,七大方言。

跨語(yǔ)言語(yǔ)音合成技術(shù)就是讓一種聲音能夠說(shuō)兩種不同的語(yǔ)言(方言)。比如用迪麗熱巴的聲音講四川話,或者用李現(xiàn)的聲音講山東話。這項(xiàng)技術(shù)的難點(diǎn)在于,我們很多時(shí)候可能只有李現(xiàn)和迪麗熱巴講普通話的聲音,這個(gè)時(shí)候就需要讓AI學(xué)會(huì)說(shuō)方言(或其他語(yǔ)言)。

但在傳統(tǒng)的訓(xùn)練方式中,這一過(guò)程其實(shí)存在一些bug,比如方言學(xué)不好或者沒(méi)學(xué)會(huì),還連累原來(lái)的普通話也講不好了,變成了“邯鄲學(xué)步”。

為了解決這一問(wèn)題,喜馬拉雅自研了一套新的訓(xùn)練方法,讓模型能夠接受所有音色和語(yǔ)言的組合的訓(xùn)練,就是跨語(yǔ)言語(yǔ)音合成技術(shù),其研究論文也被2022年國(guó)際音頻、語(yǔ)音與信號(hào)處理會(huì)議(ICASSP)收錄。

除了用TTS實(shí)現(xiàn)文字轉(zhuǎn)語(yǔ)音,音頻中也少不了語(yǔ)音轉(zhuǎn)文字的技術(shù)——ASR。

此前,許多音頻節(jié)目并不會(huì)匹配文本,就像聽(tīng)歌沒(méi)有歌詞,如果聽(tīng)不清,你就真不知道它講的啥。

為了解決這一問(wèn)題,喜馬拉雅以ASR和另一項(xiàng)可以將超長(zhǎng)音頻與文本進(jìn)行對(duì)齊的算法為核心,推出了AI文稿功能。它能夠識(shí)別無(wú)文稿聲音的內(nèi)容,為其自動(dòng)生成文稿,從而便于聽(tīng)眾更好地理解聲音內(nèi)容。

而對(duì)于已經(jīng)有文稿的聲音內(nèi)容,AI文稿又能夠?qū)⒙曇襞c文稿進(jìn)行時(shí)間戳對(duì)軌,在聲音播放的同時(shí),對(duì)相應(yīng)文字進(jìn)行同步高亮,讓用戶能更便捷地享受邊聽(tīng)邊看的內(nèi)容消費(fèi)體驗(yàn)。

近期,喜馬拉雅的ASR技術(shù)(自動(dòng)語(yǔ)音識(shí)別技術(shù))也在國(guó)內(nèi)權(quán)威行業(yè)公開(kāi)評(píng)測(cè)項(xiàng)目Speec

hIO TIOBE第三季度的評(píng)測(cè)中以2.16%的超低錯(cuò)誤率榮獲冠軍。

總之,隨著AI技術(shù)對(duì)特定場(chǎng)景理解的不斷加深,喜馬拉雅將帶動(dòng)音頻行業(yè)的生產(chǎn)方式、內(nèi)容結(jié)構(gòu)和商業(yè)效率產(chǎn)生質(zhì)的變化。

02 再做一遍音頻生意

傳統(tǒng)的音頻行業(yè),并不是一門(mén)好生意。中國(guó)并沒(méi)有誕生如播客一樣的付費(fèi)潮,于是各個(gè)玩家都在尋找利潤(rùn)更高的“好生意”。

比如之前同樣做音頻的荔枝FM,現(xiàn)在的重心就已經(jīng)轉(zhuǎn)到了更容易盈利的直播業(yè)務(wù)上。今年二季度,其營(yíng)收中虛擬禮物即相關(guān)的收入占比已經(jīng)超過(guò)了99%。除此之外,幾乎所有在線音頻玩家,都曾嘗試Clubhouse的聊天室模式。甚至從2017年開(kāi)始,喜馬拉雅還在智能家居、智能音箱、汽車座艙等多種生態(tài)渠道布局,試圖擴(kuò)大渠道來(lái)打開(kāi)更多的市場(chǎng)。

對(duì)于音頻行業(yè)來(lái)說(shuō),這些探索固然不錯(cuò),但在線音頻本質(zhì)上仍然是內(nèi)容行業(yè),真正吸引用戶使用、付費(fèi),甚至吸引廣告主的,最終還是基于內(nèi)容的體驗(yàn)。

正如信息流技術(shù)改變了圖文、視頻的新媒體傳播邏輯,誕生了字節(jié)跳動(dòng)這樣的新巨頭,進(jìn)而在電商、本地生活上都展現(xiàn)出巨大的顛覆式玩法。

AIGC、TTS、ASR等AI技術(shù)在音頻行業(yè)的突破式進(jìn)展,也將讓這個(gè)行業(yè)迸發(fā)出一種新活力。

在傳統(tǒng)在線音頻行業(yè)中,內(nèi)容結(jié)構(gòu)以及隨之而來(lái)的內(nèi)容成本一直是阻礙平臺(tái)盈利的一個(gè)重要原因。

經(jīng)過(guò)這么多年的發(fā)展,目前在線音頻行業(yè)已經(jīng)有了非常穩(wěn)定的內(nèi)容生產(chǎn)結(jié)構(gòu)。以喜馬拉雅為例,其采用的“PGC+PUGC+UGC”的內(nèi)容結(jié)構(gòu)像金字塔一樣搭建而成,其中UGC作為金字塔的底座,是用戶消費(fèi)最多的部分,其收聽(tīng)時(shí)長(zhǎng)在2021年整個(gè)平臺(tái)收聽(tīng)時(shí)長(zhǎng)中占了45.3%。

圖:招股書(shū)中喜馬拉雅PGC、PUGC、UGC內(nèi)容占比

但同時(shí),喜馬拉雅與生產(chǎn)內(nèi)容的創(chuàng)作者之間采用的收入分成的利潤(rùn)分配方式,這直接導(dǎo)致了這些年來(lái)喜馬拉雅的內(nèi)容成本一直居高不下。比如2020年和2021年,喜馬拉雅給內(nèi)容創(chuàng)作者的分成分別是13億和16億,占總營(yíng)收比例分別為31.9%與27.3%。

但在內(nèi)容創(chuàng)作中引進(jìn)AI技術(shù)之后,這一狀態(tài)有望改變。

首先,通過(guò)AI技術(shù),創(chuàng)作者將大幅提升內(nèi)容的生產(chǎn)效率,從而讓內(nèi)容規(guī)模也獲得指數(shù)級(jí)增長(zhǎng)。

以音頻里的新聞播報(bào)為例,通過(guò)TTS,新京報(bào)、環(huán)球時(shí)報(bào)、時(shí)代周報(bào)等為代表的數(shù)十家主流媒體就在喜馬拉雅上線了超過(guò)40張AIGC音頻專輯,他們?nèi)站a(chǎn)約500條聲音。

據(jù)介紹,目前喜馬拉雅新聞TTS每分鐘內(nèi)能轉(zhuǎn)化約3000字左右,這種效率是人類主播不敢想象的!秴柹俚闹厣√鹌蕖分鞑デ逶鹿殴~就表示,喜韻音坊節(jié)省了她的錄制成本,讓她可以在同樣的時(shí)間里大大提高出音量。

圖:AI電子書(shū)《厲少的重生小甜妻》 收聽(tīng)27.4W

其次,平臺(tái)也會(huì)通過(guò)AIGC大量生成內(nèi)容。目前,喜馬拉雅“單田芳聲音重現(xiàn)”等賬號(hào)下上線的運(yùn)用單田芳AI合成音所制作的專輯數(shù)量已經(jīng)有100多張,總播放量超過(guò)1億。除此之外,喜馬拉雅還與近百家網(wǎng)絡(luò)平臺(tái)和出版機(jī)構(gòu)合作,上線了近6萬(wàn)本電子書(shū),然后通過(guò)TTS技術(shù)為這些電子書(shū)實(shí)時(shí)生成TTS聲音。

今年7月,百度創(chuàng)始人李彥宏認(rèn)為,“未來(lái)十年,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式。可以實(shí)現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容!

招股書(shū)顯示,從2019年到2021年,喜馬拉雅的毛利率已經(jīng)從44.5%提高到了54%。

可以預(yù)見(jiàn),隨著AIGC內(nèi)容規(guī)模的不斷擴(kuò)大,也將再大幅降低音頻平臺(tái)的平均內(nèi)容成本。

除此之外,技術(shù)的引入還將豐富音頻內(nèi)容的質(zhì)量。

音頻行業(yè)里,除了少部分專業(yè)團(tuán)隊(duì)之外,大部分內(nèi)容創(chuàng)作者都是“單兵作戰(zhàn)”,一個(gè)人、一支麥。這也導(dǎo)致他們?cè)趦?nèi)容創(chuàng)作的時(shí)候只能選擇演繹單播作品,這極大的限制了聲音內(nèi)容的變現(xiàn)力。

而在喜馬拉雅喜韻音坊基于TTS技術(shù)開(kāi)發(fā)的AIGC多播功能上線之后,主播可以與AI合作,輕易實(shí)現(xiàn)不同聲音與不同角色、情感的匹配,讓單個(gè)主播也能演繹多播作品。

“現(xiàn)在喜韻音坊已經(jīng)有公子音、御姐音、師傅音、媽媽音等各種音色,而且它還賦予了這些人物不同的情緒,能夠自如表達(dá)悲傷、憤怒、厭惡、欽佩等等各種復(fù)雜的人類情感,可以滿足小說(shuō)中各個(gè)角色的切換!薄段以谙山缣詮U品》的主播“DJ老趙”表示:“借助這個(gè)功能,可以快速實(shí)現(xiàn)由單播到多播”。

之前聽(tīng)眾在聽(tīng)書(shū)的時(shí)候只能聽(tīng)到一個(gè)人一種聲音,如今聽(tīng)書(shū)的時(shí)候,有幾個(gè)角色就有幾種不同的聲音,讓聲音內(nèi)容更有張力,可以吸引更多聽(tīng)眾,也能讓更多用戶愿意為之付費(fèi)。

從數(shù)據(jù)上看,2020年喜馬拉雅移動(dòng)端每名活躍用戶的日均在線音頻收聽(tīng)時(shí)長(zhǎng)為117.4分鐘,到2021年,這一數(shù)據(jù)增長(zhǎng)到144分鐘。同時(shí),2021年,喜馬拉雅月活躍付費(fèi)會(huì)員數(shù)量為1440萬(wàn),同比增長(zhǎng)52%。

整體上,AI技術(shù)不僅在重構(gòu)音頻行業(yè)的生產(chǎn)方式,也在從根本上改變著這個(gè)行業(yè)的商業(yè)邏輯。

       原文標(biāo)題 : 當(dāng)喜馬拉雅裝上AI引擎,音頻行業(yè)還有機(jī)會(huì)嗎?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)