Meta免費開源AI模型NLLB-200!可精準(zhǔn)翻譯超過200種語言
近日,Meta公司宣布將免費開源旗下AI系統(tǒng)NLLB-200 ,該系統(tǒng)是全球第一個能翻譯200種不同語言的單一AI模型,將為超過10億人提供高品質(zhì)翻譯內(nèi)容。
Meta公司稱,將會把NLLB-200對外開源,同時向非營利機(jī)構(gòu)提供20萬美元的資助,以開發(fā)該技術(shù)應(yīng)用于更多應(yīng)用程式上。
德國慕尼黑大學(xué)計算機(jī)語言學(xué)家Alexander Fraser認(rèn)為,該模型的主要貢獻(xiàn)在于數(shù)據(jù),包含了100種全新語言。
目前,市面上很多翻譯工具并不支持冷門的語言,也就是少于百萬人口使用的語言,而NLLB-200解決了這個問題。
【不遺漏任何語言】
全球有數(shù)十億人,但一直以來卻沒有可以翻譯上百種語言的高品質(zhì)翻譯工具,他們無法通過自己慣用的語言或母語瀏覽網(wǎng)絡(luò)上的內(nèi)容,或在網(wǎng)絡(luò)社群上參與討論,尤其是對于非洲、亞洲等地區(qū)有高達(dá)數(shù)億人使用不同種類的語言。
為了突破網(wǎng)絡(luò)上的語言障礙,并促進(jìn)元宇宙發(fā)展,Meta的AI研究人員早年已成立NLLB專案,開發(fā)AI模型為全世界提供高品質(zhì)的翻譯功能。
據(jù)悉,NLLB是“No Language Left Behind(不遺漏任何語言)”的縮寫,該AI系統(tǒng)可以高質(zhì)量翻譯世界上多達(dá)200種語言,除了主流語言外,其中還包含多達(dá)55種非洲系語言及其他少數(shù)語言。
在多項指標(biāo)中,相較現(xiàn)有的其他翻譯工具,NLLB-200的翻譯品質(zhì)平均高出44%。在部分非洲和印度語言中,提升幅度相較最新的翻譯系統(tǒng)更提升了70%。
此外,Meta也與維基基金會合作,希望NLLB-200之后可以提供維基百科翻譯的服務(wù),改善維基百科的翻譯系統(tǒng)。通過雙方的合作,NLLB-200持續(xù)學(xué)習(xí)其他翻譯器中無法翻譯的語言,AI模型可以自己學(xué)習(xí)語言中的文字系統(tǒng),得到更準(zhǔn)確的翻譯結(jié)果。
【多語言翻譯系統(tǒng)】
過去幾年,AI語言翻譯系統(tǒng)的發(fā)展非?臁eta公司曾經(jīng)指出,目前絕大多數(shù)的AI翻譯系統(tǒng)是屬于“雙語言模型”,只是單純具備一對一的翻譯能力,比如英語-中文、英語-日語等等,但Meta希望研發(fā)一套“多語言翻譯系統(tǒng)”,突破一對一的語音翻譯,直接讓多種語言的用戶可以在同一個聊天室內(nèi)即時地用口語進(jìn)行交流。
去年,Meta AI實驗室公布了多語言模型,為AI翻譯帶來了巨大提升。11月,Meta的多語言模型拿下了WMT國際機(jī)器翻譯大賽2021的冠軍。
Meta的模型開發(fā)策略分為三部分:大規(guī)模的數(shù)據(jù)挖掘、模型擴(kuò)展、有效運用運算資源。
1.大規(guī)模數(shù)據(jù)挖掘:為訓(xùn)練多語言模型,Meta研發(fā)團(tuán)隊采用兩種方式:任意語言到英語,以及英語到任意語言。Meta應(yīng)用平行數(shù)據(jù)挖掘技術(shù)來收集爬蟲取得的網(wǎng)站翻譯資料,降低手工翻譯成本。
2.模型擴(kuò)展:為了提高多語言模型設(shè)計的容量,模型規(guī)模從150億個參數(shù)提高到520億個,并在此基礎(chǔ)上,利用公司最新的GPU內(nèi)存節(jié)省解決方案——Fully Sharded Data-Parallel,將大規(guī)模訓(xùn)練的速度提升了5倍。
3.有效運用運算資源:為了節(jié)省模型的計算成本,Meta采用了一套新的運算方法,讓模型在不同訓(xùn)練場景中,只使用模型的一部分,而非整體,以此更有效率運用硬件資源。
Meta的多語言模型最大特點是針對訓(xùn)練資源少,或小語種的語言翻譯,該多語言模型在測試中超過了目前市面上最好的并且經(jīng)過專門訓(xùn)練的雙語模型。Meta認(rèn)為,這套多語言模型為“通用語音翻譯系統(tǒng)”打下了基礎(chǔ)。
Meta的愿景是這套系統(tǒng)可以讓全球大眾廣泛使用,但同時也將會成為Meta旗下的VR/AR等穿戴設(shè)備的殺手級應(yīng)用。
可以想象的是,“通用語音翻譯系統(tǒng)”一旦在元宇宙中實現(xiàn),可以讓全世界不同語種的用戶,在元宇宙虛擬空間里溝通、開會、玩游戲,將會比在現(xiàn)實中更加方便,也將更進(jìn)一步實現(xiàn)Meta對發(fā)展元宇宙的野心。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市