跑分沒輸過,體驗沒贏過,大模型刷分何時休?
作者:一號
編輯:美美
圖片來源:由無界 AI生成
從手機(jī)到大模型,國內(nèi)產(chǎn)品為啥都這么熱衷跑分?
IDCAI大模型技術(shù)能力評估,12項指標(biāo),7項滿分,文心大模型3.5“大滿貫”;360智腦在SuperCLUE評測中多項能力位列國產(chǎn)大模型第一,某些方面甚至跑贏了GPT-4;夸克大模型在C-Eval和CMMLU兩大權(quán)威評測榜單中名列第一,顯示出其在寫作、考試等部分場景中甚至優(yōu)于GPT-4......
今年以來,國產(chǎn)AI大模型發(fā)展趨勢之迅猛,不得不讓人感慨。截至目前,國產(chǎn)大模型數(shù)量已經(jīng)超過了200個,而且,這些大模型紛紛表現(xiàn)不俗,從百度文心一言到阿里巴巴的夸克大模型,國產(chǎn)AI在各類評測榜單上的表現(xiàn)引人注目。有人對此評價,“跑分沒輸過,體驗沒贏過”。
這種似曾相識的“跑分”現(xiàn)象,不禁讓人想到手機(jī)市場里類似的做法。這種在評測中名列前茅、表現(xiàn)出色,但實際用戶體驗一言難盡的情況,究竟意味著什么?
為何跑分與體驗不符?
回顧手機(jī)市場,“跑分沒輸過,體驗沒贏過”這句話最開始就是從手機(jī)圈中興起的,各大廠商通過不斷疊加定語,來讓自己獲得第一;還有的手機(jī)會自動識別跑分軟件,針對性地開啟性能模式,讓自己的跑分?jǐn)?shù)據(jù)好看些,從而實現(xiàn)“作弊”。用戶買到跑分高的手機(jī)后,實際體驗并不是那么回事。
而在AI大模型領(lǐng)域,評估標(biāo)準(zhǔn)則相對公平,并且是同意的,其中包括MMLU(用于衡量多任務(wù)語言理解能力)、Big-Bench(用于量化和外推LLMs的能力),以及AGIEval(用于評估人類級任務(wù)的能力)。
目前國內(nèi)廠商經(jīng)常飲用的榜單就是SuperCLUE、CMMLU和C-Eval,其中C-Eval是由清華大學(xué)、上海交通大學(xué)和愛丁堡大學(xué)合作構(gòu)建的綜合性考試評測集,CMMLU則是MBZUAI、上海交通大學(xué)、微軟亞洲研究院共同推出,至于SuperCLUE,則是由各大高校的AI專業(yè)人士設(shè)立的。
盡管大模型的評測標(biāo)準(zhǔn)相對公平,但其仍有一定的局限性,實際的測評之中總會出現(xiàn)問題,其中一個最大的問題就是“考題泄露”。
大模型評測的一個主要方法就是做題。為了讓評測相對透明公開,避免暗箱操作,評測機(jī)構(gòu)通常會將評測的方法、標(biāo)準(zhǔn)甚至是題庫對外公開。例如C-Eval榜單在上線之初就有13948道題目,由于題庫有限,并且更新頻率不是特別高,這就給了一些大模型刷題“鉆空子”的機(jī)會。
我們都知道,如果在考試之前知道會考哪些題目,那考生完全可以做針對性的學(xué)習(xí),大模型也一樣,并且大模型最擅長的就是記憶。在評測之前,把題庫直接加入大模型的訓(xùn)練集,訓(xùn)練之后的大模型就能在評測中表現(xiàn)得比實際能力更好,甚至跑出一些夸張的成績,例如1.3B的模型在某些任務(wù)上超越了10倍體量的大模型。
那么這樣的評測結(jié)果,跟實際體驗一定會很不相符。
為何熱衷于跑分?
無論是國產(chǎn)手機(jī)廠商還是AI大模型公司,他們對跑分的熱衷,本質(zhì)上是一種營銷策略。跑分成績?nèi)菀妆涣炕Ρ,因此成為了向公眾展示技術(shù)實力的便捷手段。這種做法在短期內(nèi)可能會吸引消費者和投資者的注意,但它也可能引起誤導(dǎo),使人們過分關(guān)注理論性能,而忽視了實際應(yīng)用中的體驗和效能。
這種營銷策略的問題在于,它可能導(dǎo)致公司本末倒置,過分投入于提高特定測試的分?jǐn)?shù),而非真正的技術(shù)創(chuàng)新。在手機(jī)行業(yè),這可能意味著優(yōu)化設(shè)備性能以提升特定跑分軟件的測試成績;在AI領(lǐng)域,則可能表現(xiàn)為優(yōu)化模型以應(yīng)對評測榜單的特定題目。這種做法雖然能在短期內(nèi)提高產(chǎn)品在評測榜單上的排名,但卻可能忽視了產(chǎn)品在真實使用環(huán)境中的性能和用戶體驗。
這種以跑分為核心的營銷策略需要被重新審視。盡管高分成績在營銷中具有吸引力,但它們并不總是反映產(chǎn)品的真實價值。對于消費者而言,理論上的高性能與日常使用中的實際體驗之間往往存在差距。因此,無論是手機(jī)行業(yè)還是AI領(lǐng)域,公眾和行業(yè)都應(yīng)該更加關(guān)注產(chǎn)品在真實世界中的表現(xiàn)。
要放棄跑分嗎?
從隋唐的科舉到今天的高考,從國內(nèi)的四六級到國外的托福雅思,考試在時間和空間的維度上,都是一種相對公平的衡量機(jī)制。因此,大模型評測作為大模型的“考試”,同樣不能被輕易拋棄。
倘若評測相對準(zhǔn)確、靠譜、權(quán)威,那么對于所有的大模型公司來說都是好事。研發(fā)者可以通過評測結(jié)果了解自家大模型的優(yōu)缺點,查漏補(bǔ)缺,找到正確的方向鉆研算法、提升技術(shù)、加強(qiáng)訓(xùn)練,不斷攻克,進(jìn)行優(yōu)化迭代,從而讓產(chǎn)品更具有競爭力。
對于AI大模型開發(fā)者而言,榜單的排名不應(yīng)該成為最終目的,真正的挑戰(zhàn)在于如何將先進(jìn)的技術(shù)轉(zhuǎn)化為實際應(yīng)用中的有效工具,這不僅僅是一場分?jǐn)?shù)的競賽,更是對技術(shù)創(chuàng)新和實用性的追求。我們期待一個更加全面和科學(xué)的評測體系的出現(xiàn),這不僅能正確評估AI模型的實際能力,還能促進(jìn)整個行業(yè)向著更加健康、理性的方向發(fā)展。
原文標(biāo)題 : 新火種AI | 跑分沒輸過,體驗沒贏過,大模型刷分何時休?
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
11月20日火熱報名中>> 2024 智能家居出海論壇
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
精彩回顧立即查看>> 【在線會議】多物理場仿真助跑新能源汽車
推薦專題
- 1 腦機(jī)接口芯片,華為出了新專利!
- 2 今年諾獎對人工智能的重視,給我們的基礎(chǔ)教育提了個醒
- 3 銀行業(yè)AI大模型,從入局到求變
- 4 巨頭搶布局,VC狂撒錢,為了能讓「AI讀心」這些公司卷瘋了
- 5 阿斯麥ASML:“骨折級”洋相,又成AI第一殺手?
- 6 蘋果市值創(chuàng)新高,iPhone 16能否助力突破4萬億美元大關(guān)?
- 7 一場“載入史冊”的發(fā)布會,讓馬斯克失去了4700億
- 8 百度谷歌比較研究2024:中美“遠(yuǎn)古AI龍頭”的現(xiàn)狀與趨勢
- 9 洞見AI風(fēng)潮 第二屆vivo藍(lán)河操作系統(tǒng)創(chuàng)新賽開啟招募
- 10 地平線開啟配售,阿里百度各砸5000萬美金,市值最高超500億
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市