倒反天罡!美國名校斯坦福AI團(tuán)隊(duì)抄襲中國大模型
作者:一號
編輯:美美
中國大模型被抄襲,怎么不算是某種層面上的國際認(rèn)可呢?
5月29日,斯坦福大學(xué)的一個AI研究團(tuán)隊(duì)發(fā)布了一個名為「Llama3V」的模型,號稱只要 500 美元就能訓(xùn)練出一個 SOTA 多模態(tài)模型,且效果比肩 GPT-4V、Gemini Ultra 與 Claude Opus 。
論文作者一共有三位,分別是Mustafa Aljaddery、Aksh Garg、Siddharth Sharma,其中兩位來自斯坦福,并且集齊了特斯拉、SpaceX、亞馬遜還有牛津大學(xué)等各種機(jī)構(gòu)的相關(guān)背景,在外人看來,這是典型的業(yè)界大牛。所以宣布發(fā)布這個模型的推文很快瀏覽量就超過了30萬,這個項(xiàng)目也沖到了Hugging Face的首頁,而且別人試用了一下,效果是真的不錯。
但是這個大模型最近卻“刪庫跑路”了,怎么回事呢?
美國名校居然抄襲中國大模型?
在Llama3V發(fā)布后沒幾天,在X平臺還有Hugging Face上就出現(xiàn)了一些懷疑的聲音。有人認(rèn)為,Llama3V實(shí)際上是“套殼”了面壁智能在5月中旬發(fā)布的8B 多模態(tài)小模型 MiniCPM-Llama3-V 2.5,但并沒有在Llama3V的工作中表達(dá)過任何對 MiniCPM-Llama3-V 2.5的致敬和感謝。
面壁智能是一家中國AI大模型公司,其核心團(tuán)隊(duì)成員包括來自清華大學(xué)自然語言處理與社會人文計(jì)算實(shí)驗(yàn)室 (THUNLP)的成員,如 CEO 李大海、聯(lián)合創(chuàng)始人劉知遠(yuǎn)等。
對此,這個斯坦福AI團(tuán)隊(duì)回應(yīng)稱,他們「只是使用了 MiniCPM-Llama3-V 2.5 的 tokenizer」,并「在 MiniCPM-Llama3-V 2.5 發(fā)布前就開始了這項(xiàng)工作」。然而求錘得錘,隨著好心網(wǎng)友的深挖,發(fā)現(xiàn)這兩個模型的模型結(jié)構(gòu)、代碼、配置文件,簡直一模一樣,只是改了變量名而已。
但是,網(wǎng)友擺出證據(jù)質(zhì)疑Llama3V團(tuán)隊(duì)后,團(tuán)隊(duì)采取的做法卻是刪評刪庫,不少跟這個項(xiàng)目相關(guān)的網(wǎng)頁,不管是GitHub還是Hugging Face,統(tǒng)統(tǒng)都變成了404。擺證據(jù)不聽,那網(wǎng)友就找到的事件的另一當(dāng)事方,也就是面壁智能那里,把一系列的證據(jù)都亮了出來。
面壁智能一看,就讓這兩個模型做了測試,發(fā)現(xiàn)這兩個模型「不僅正確的地方一模一樣,連錯誤的地方也一模一樣」,這如果還是巧合就有點(diǎn)說不過去了。隨后他們找到了一個關(guān)鍵性證據(jù),那就是識別清華簡。這個實(shí)際上是MiniCPM-Llama3-V 2.5的特有功能之一。
清華簡是一種非常罕見、在戰(zhàn)國時期寫在竹子上的中國古代文字。他們在訓(xùn)練的時候,使用的圖像是從最近出土的文物中掃描得來的,而面壁智能進(jìn)行了標(biāo)注。因此,可以說,除了面壁智能,其他的大模型基本上并不會具備這一功能。況且Llama3V還是美國團(tuán)隊(duì)研發(fā)的,按理說應(yīng)該并不會特意去做這一個功能。但是,實(shí)際上,Llama3V和MiniCPM-Llama3-V 2.5的識別情況極其相似,這基本就是實(shí)錘了。
證據(jù)面前,認(rèn)錯態(tài)度卻很迷
種種證據(jù)面前,斯坦福的這個團(tuán)隊(duì)依舊不承認(rèn)抄襲,而是選擇下架了幾乎所有與Llama3V相關(guān)的項(xiàng)目,但卻做了下面的聲明:
非常感謝那些在評論中指出與之前研究相似之處的人。
我們意識到我們的架構(gòu)非常類似于OpenBMB的“MiniCPM-Llama3-V 2.5,他們在實(shí)現(xiàn)上比我們搶先一步。
我們已經(jīng)刪除了關(guān)于作者的原始模型。
但隨后又光速滑跪,項(xiàng)目其中的兩位作者Siddharth Sharma以及Aksh Garg和另一位作者,來自南加利福尼亞大學(xué)的Mustafa Aljadery切割,指責(zé)其為項(xiàng)目編寫了代碼,但沒有告知她們有關(guān)面壁智能的事,他們兩個人更多只是幫助他推廣這個模型。
這讓不少網(wǎng)友嘲諷,靠發(fā)發(fā)推文推廣下就能成為項(xiàng)目作者之一,這名頭來得也太簡單了。因此,斯坦度人工智能實(shí)驗(yàn)室主任Christopher Manning下場開噴,說這是“典型的不承認(rèn)自己錯誤!”
對此,面壁智能CEO在昨天回應(yīng)稱“也是一種受到國際團(tuán)隊(duì)認(rèn)可的方式”,首席科學(xué)家劉知遠(yuǎn)也表示,“該團(tuán)隊(duì)三人中的兩位也只是斯坦福大學(xué)本科生,未來還有很長的路,如果知錯能改,善莫大焉”。
中國大模型缺少國際團(tuán)隊(duì)認(rèn)可
盡管本次事件具有極大的戲劇性,但實(shí)際上,這個事件之所以能引起人們的注意,主要是因?yàn)長lama3V不僅有名校名企的背書,而且確實(shí)擁有不錯的實(shí)力,但這也引起了人們的反思。
谷歌DeepMind研究員、ViT作者Lucas Beyer提到,Llama3-V是抄的,但成本低于500美元,效果卻能直追Gemini、GPT-4的開源模型確實(shí)存在,那就是面壁智能的MiniCPM-Llama3-V 2.5,然而,相比起Llama3V,MiniCPM得到的關(guān)注要少得多。主要原因似乎是這樣的模型出自中國實(shí)驗(yàn)室,而非常春藤盟校。
而Hugging Face的負(fù)責(zé)人Omar Sanseviero也說,社區(qū)一直在忽視中國機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的工作。他們正在用有趣的大語言模型、視覺大模型、音頻和擴(kuò)散模型做一些令人驚奇的事情。
包括Qwen、Yi、DeepSeek、Yuan、WizardLM、ChatGLM、CogVLM、Baichuan、InternLM、OpenBMB、Skywork、ChatTTS、Ernie、HunyunDiT等等。
的確,從大模型競技場上來看,中國的大模型實(shí)際上表現(xiàn)并不差,例如來自零一萬物的Yi-VL-Plus在模型一對一PK的視覺大模型競技場中排名第五,超過了谷歌的Gemini Pro Vision,智譜AI和清華合作的CogVLM也躋身前十。而在其他項(xiàng)目的比試中,中國大模型也往往榜上有名。
即使具備這樣的實(shí)力,但國產(chǎn)大模型不僅在國際上不受待見,在國內(nèi)也常常深陷輿論泥淖,被貼上了“別人一開源,我們就自主”還有“套殼”等標(biāo)簽。而這次事件,可以很好地說明,實(shí)際上,中國大模型中也有一些出色的,盡管面對國際領(lǐng)先模型仍有顯著差距,但中國大模型已經(jīng)從以前的nobody,成長為了AI領(lǐng)取的關(guān)鍵推動者之一,一些關(guān)于中國大模型的成見需要被打破。
原文標(biāo)題 : 新火種AI|倒反天罡!美國名校斯坦福AI團(tuán)隊(duì)抄襲中國大模型
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月31日立即下載>> 【限時免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報(bào)名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市