蘋果研究員質(zhì)疑大模型!我們測(cè)試了6款,發(fā)現(xiàn)了4大真相
汽車業(yè)務(wù)失利后,蘋果決定加碼生成式AI,并將部分汽車部門的員工調(diào)到了AI部門。然而對(duì)待AI,蘋果似乎不如百度、訊飛、OpenAI、xAI等國(guó)內(nèi)外企業(yè)那么自信。
日前,蘋果研究員發(fā)布了一篇名為《理解大語(yǔ)言模型中數(shù)學(xué)推理局限性 》的論文,質(zhì)疑大語(yǔ)言模型的數(shù)學(xué)推理能力,甚至認(rèn)為大語(yǔ)言模型不具備真正的推理能力。
蘋果研究員在論文中舉了一個(gè)簡(jiǎn)單的例子,向大模型提出問(wèn)題“奧利弗周五摘了44個(gè)奇異果,周六摘了58個(gè)奇異果。周日,他摘的奇異果是周五的兩倍。奧利弗一共摘了多少個(gè)奇異果?”此時(shí)大語(yǔ)言模型都能正確計(jì)算出答案。
(圖源:豆包AI生成)
但當(dāng)研究人員為問(wèn)題增添了一句修飾語(yǔ)“周日,他摘的奇異果是周五的兩倍,其中5個(gè)比平均小”時(shí),部分大模型就給出了錯(cuò)誤的答案,傾向于減掉這五個(gè)比較小的奇異果。
在大語(yǔ)言模型的使用過(guò)程中,小雷也遇到過(guò)大模型“抽風(fēng)”的情況,某個(gè)大語(yǔ)言模型甚至連最基礎(chǔ)的乘法都能算錯(cuò)。不過(guò)大語(yǔ)言模型一直在向前發(fā)展,許多曾經(jīng)常犯的錯(cuò)誤,都已被新技術(shù)解決。
蘋果研究員吐槽大語(yǔ)言模型數(shù)學(xué)推理能力不行,究竟是情況屬實(shí),還是為自家AI技術(shù)落后找借口?實(shí)測(cè)過(guò)后,我們有了結(jié)論。
哪些大語(yǔ)言模型能回答蘋果的問(wèn)題?
本次大語(yǔ)言模型對(duì)比評(píng)測(cè),小雷選擇了全球名氣較高的六款產(chǎn)品,包括:1、GPT-4o;2、訊飛星火大模型;3、豆包;4、Kimi;5、文心3.5五款大模型;6、GPT-4o mini。由于文心大模型4.0收費(fèi),其他大語(yǔ)言模型則免費(fèi)(GPT-4o每日有免費(fèi)提問(wèn)次數(shù)),因此為了公平起見(jiàn),小雷選擇了免費(fèi)的文心大模型3.5。
閑話不多說(shuō),我們直接進(jìn)入測(cè)試階段。
一、奇異果問(wèn)題:文心完敗
第一輪測(cè)試的問(wèn)題,我們選擇了蘋果研究員提到的奇異果問(wèn)題(正確答案:190個(gè))。站在人類的視角,奇異果的大小并不影響計(jì)算數(shù)量,但在大語(yǔ)言模型的視角中,情況卻發(fā)生了變化。
本輪測(cè)試中,五款大語(yǔ)言模型有四款通過(guò)了考驗(yàn),其中豆包和Kimi特地提醒,奇異果的大小并不影響計(jì)算總數(shù)。GPT-4o雖然也正確計(jì)算出了總數(shù),但可能是因?yàn)椤捌骄眱蓚(gè)字的翻譯問(wèn)題,還求出了三天平均每天摘取奇異果的數(shù)量。唯一沒(méi)有得出正確答案的大模型是文心大模型3.5,將五個(gè)體型小的奇異果排除,得到了摘取185個(gè)奇異果的錯(cuò)誤答案。
(圖源:GPT截圖)
(圖源:訊飛星火截圖)
(圖源:豆包截圖)
(圖源:Kimi截圖)
(圖源:文心一言截圖)
蘋果研究員的論文,提到了GPT-4o mini計(jì)算該問(wèn)題時(shí)出錯(cuò),切換至該模型后,小雷又計(jì)算了一遍這道題,果不其然,GPT-4o mini也給出了錯(cuò)誤答案。
(圖源:GPT-4o mini截圖)
難道大語(yǔ)言模型計(jì)算數(shù)學(xué)題的準(zhǔn)確性,與其參數(shù)量呈正相關(guān)?GPT-4o mini屬于小模型,更追求低成本和快速響應(yīng),參數(shù)量遠(yuǎn)不能與GPT-4o相比,在推理數(shù)學(xué)問(wèn)題時(shí),參數(shù)量的差距導(dǎo)致GPT-4o與GPT-4o mini計(jì)算結(jié)果不同。
文心大模型同樣如此,盡管沒(méi)有官方數(shù)據(jù),但4.0版本的推理成本相較于3.5版本預(yù)計(jì)提高了8-10倍,3.5版的參數(shù)量之小可想而知。
二、公交車問(wèn)題:文心完勝
本輪測(cè)試的題目是一道行測(cè)數(shù)學(xué)題,具體內(nèi)容為:
由于國(guó)慶節(jié)的到來(lái),某旅游城市的游客數(shù)量大幅上漲,公交公司決定簡(jiǎn)化公交車的線路,縮短單程時(shí)間。現(xiàn)有1、2、3路公交車,于上午7點(diǎn)同時(shí)從車站發(fā)車,三輛公交車再次回到車站所用時(shí)間分別為30分鐘、45分鐘、60分鐘。這三輛公交車中間不休息,請(qǐng)問(wèn)第二次它們同時(shí)到達(dá)車站將是幾點(diǎn)?(正確答案:13點(diǎn))
這輪測(cè)試所得出的結(jié)果,讓小雷驚掉了下巴。在測(cè)試中,小雷連續(xù)測(cè)試四款大模型,結(jié)果全部計(jì)算錯(cuò)誤,當(dāng)時(shí)唯一沒(méi)有出錯(cuò)的大語(yǔ)言模型就是文心3.5。
鑒于文心3.5在第一輪的表現(xiàn),小雷沒(méi)有對(duì)文心3.5抱有任何期待,但我不看好它的時(shí)候,文心3.5偏偏就爭(zhēng)氣了,并成為唯一解出正確答案的大語(yǔ)言模型。后續(xù)小模型GPT-4o mini在測(cè)試中,也沒(méi)能給出正確答案。
(圖源:GPT截圖)
(圖源:訊飛星火截圖)
(圖源:豆包截圖)
(圖源:Kimi截圖)
(圖源:文心一言截圖)
(圖源:GPT-4o mini截圖)
思來(lái)想去,小雷認(rèn)為唯一的解釋就是,百度作為國(guó)內(nèi)首屈一指的搜索引擎,對(duì)于中國(guó)人的語(yǔ)言與思維習(xí)慣更加了解,因而才能準(zhǔn)確理解“到達(dá)”這個(gè)詞的含義。其他大模型都將始發(fā)?吭谄囌井(dāng)做第一次到達(dá)車站,未能正確理解“到達(dá)”的含義。
相較于數(shù)學(xué),本題對(duì)于中文理解能力的考驗(yàn)可能更高,但這幾款大語(yǔ)言模型的表現(xiàn)也從側(cè)面說(shuō)明,AI大模型對(duì)于人類邏輯的理解能力有待提升?紤]到文心3.5的獲勝證明實(shí)力的同時(shí),也有取巧的可能,因此小通還準(zhǔn)備了地獄級(jí)難度的第三輪測(cè)試。
三、運(yùn)動(dòng)員問(wèn)題:免費(fèi)版團(tuán)滅,付費(fèi)版正確
第三道題同樣是一道行測(cè)數(shù)學(xué)題,但與以上問(wèn)題不同的是,這道題沒(méi)有任何干擾信息,純粹考驗(yàn)大語(yǔ)言模型的計(jì)算能力。題目為:
某班有39名同學(xué)參加短跑、跳遠(yuǎn)、投擲三項(xiàng)體育比賽,人數(shù)分別為23人、18人、21人,其中三項(xiàng)比賽全部參加的有5人,僅參加跳遠(yuǎn)的有3人,僅參加投擲的有9人,請(qǐng)問(wèn)僅參加短跑的有多少人?(正確答案:9人)
遺憾的是,五款大模型與一款小模型在本輪測(cè)試中全部失敗,而且大語(yǔ)言模型給出的答案各不相同,解題思路也存在許多問(wèn)題。
(圖源:GPT截圖)
(圖源:訊飛星火截圖)
(圖源:豆包截圖)
(圖源:Kimi截圖)
(圖源:文心一言截圖)
(圖源:GPT-4o mini截圖)
最后,小雷只好使用付費(fèi)版的OpenAI o1-preview大模型進(jìn)行計(jì)算,結(jié)果不負(fù)眾望,給出了正確答案。
(圖源:GPT-4o o1-preview截圖)
同樣是OpenAI旗下的大模型,免費(fèi)版GPT-4o和付費(fèi)版o1-preview得出了不同答案,原因可能在于免費(fèi)用戶所能調(diào)用的資源更少,導(dǎo)致大模型計(jì)算能力不如付費(fèi)版。
參數(shù)決定性能,付費(fèi)升級(jí)體驗(yàn)
以上參與三輪測(cè)試的五款大模型和一款小模型中,表現(xiàn)最差的無(wú)疑是小模型GPT-4o mini,三輪測(cè)試中均給出了錯(cuò)誤答案。
我們可以得出以下結(jié)論:
1、小模型只配做大模型的平替?
GPT-4o mini的表現(xiàn)證明,當(dāng)需要處理難度較高的推理問(wèn)題時(shí),小模型參數(shù)量少、資源少更容易出錯(cuò)。盡管百度、OpenAI、谷歌、微軟等企業(yè)都致力于研究小模型,但它們可能只是日常使用時(shí)回答基礎(chǔ)問(wèn)題“勉強(qiáng)能用”的平替版,畢竟成本可以大幅降低,這就跟企業(yè)雇傭一個(gè)小學(xué)生和一個(gè)博士生一樣,智力是一分錢一分貨。
據(jù)研究機(jī)構(gòu)Epoch AI計(jì)算,訓(xùn)練尖端大模型所需的算力,每隔6-10個(gè)月就會(huì)翻一倍。龐大的算力需求,給AI公司帶來(lái)了極高的經(jīng)濟(jì)壓力,哪怕是谷歌、微軟這種行業(yè)巨頭,也會(huì)倍感吃力。正因如此,小模型現(xiàn)階段雖表現(xiàn)遜色于大模型,但AI公司不會(huì)放棄開(kāi)發(fā)小模型,而是會(huì)通過(guò)長(zhǎng)時(shí)間的調(diào)校與打磨,不斷提升小模型的能力。
(圖源:豆包AI生成)
2、要得到相對(duì)更智能的AI服務(wù)?給錢吧。
幾款大模型的免費(fèi)版表現(xiàn)相差不大,能夠解決一些存在干擾條件的數(shù)學(xué)問(wèn)題,但遇到了文字可能存在歧義,或過(guò)于復(fù)雜的數(shù)學(xué)問(wèn)題,表現(xiàn)則相對(duì)較差。好在,面對(duì)雷科技設(shè)定的地獄級(jí)難題,付費(fèi)版的o1-preview大模型最終給出了正確答案,為大語(yǔ)言模型挽回了顏面,唯有付費(fèi)用戶才能體驗(yàn)到最好的大模型。
3、本土大模型有本土優(yōu)勢(shì),百度們穩(wěn)了。
結(jié)合文心3.5能夠在第二項(xiàng)測(cè)試中力壓群雄可知,大語(yǔ)言模型依賴大量數(shù)據(jù)運(yùn)算,但每個(gè)國(guó)家或地區(qū)的數(shù)據(jù)量和獲取難易程度不同,因語(yǔ)言和生活習(xí)慣的差異,綜合表現(xiàn)更出色的大模型,未必能在特定場(chǎng)景中獲勝,大語(yǔ)言模型也需要本地化適配。
4、大模型距離人類智能還很遠(yuǎn),不要輕信“忽悠”。
在資本驅(qū)動(dòng)下,很多媒體、自媒體、創(chuàng)業(yè)公司甚至企業(yè)家大佬都在鼓吹“AI威脅論”,甚至豪言AI水平已超越人類,他們往往會(huì)用一些個(gè)案來(lái)證明AI大模型已具備博士生甚至超越博士生水平。然而,當(dāng)我們找一些常見(jiàn)的數(shù)學(xué)題,抑或是一些常見(jiàn)的工作任務(wù)來(lái)“考考”大模型時(shí),大模型也很容易被難住。
大模型以及AI當(dāng)然會(huì)有許多安全威脅,比如自動(dòng)駕駛汽車失控給城市交通乃至人類生命安全帶來(lái)的威脅。但要說(shuō)AI智力可以逼近人類甚至取代人類,那就純屬忽悠了。
大模型可能確實(shí)被高估了,但蘋果掉隊(duì)是事實(shí)
綜合來(lái)看,蘋果研究員的觀點(diǎn)對(duì)錯(cuò)參半,當(dāng)前AI的邏輯推理能力不足,面對(duì)復(fù)雜的數(shù)學(xué)問(wèn)題時(shí),顯得有些力不從心,但AI并非完全沒(méi)有邏輯推理能力。哪怕是相對(duì)而言版本較為落后的文心3.5,在第二輪測(cè)試中也展現(xiàn)出了對(duì)文字和數(shù)學(xué)的解讀與推理能力。
第一代GPT發(fā)布于2018年,僅有1.17億參數(shù),到了2020年,GPT-3已擁有1750億參數(shù),到如今GPT的歷史不過(guò)短短6年,每一代的體驗(yàn)提升肉眼可見(jiàn)。
當(dāng)前大語(yǔ)言模型最大的問(wèn)題依然在于參數(shù)量太少、算力太低,資源相對(duì)豐富的o1-preview,面對(duì)其他大模型束手無(wú)策的數(shù)學(xué)難題時(shí),依然給出了正確答案。隨著大模型不斷優(yōu)化、參數(shù)量增加、算力提升,大語(yǔ)言模型的推理能力自然會(huì)水漲船高。
進(jìn)軍新能源汽車時(shí),蘋果血虧百億美元最終放棄,如今進(jìn)入生成式AI領(lǐng)域,蘋果研究員又站出來(lái)貶低大語(yǔ)言模型,不禁令人懷疑蘋果的生成式AI項(xiàng)目進(jìn)展不順利。對(duì)于蘋果而言,與其貶低其他AI大模型,不如增加AI研發(fā)投入,加速布局生成式AI,畢竟AI的燒錢能力更甚于新能源汽車。
若失去了研發(fā)和布局生成式AI最好的機(jī)會(huì),等到OpenAI、谷歌、微軟、xAI等企業(yè)的AI大模型瓜分了海外市場(chǎng),百度、訊飛、阿里巴巴、抖音等企業(yè)的AI大模型占領(lǐng)了國(guó)內(nèi)市場(chǎng),蘋果生成式AI業(yè)務(wù)有可能淪為與新能源汽車業(yè)務(wù)相同的結(jié)局。
本文圖片來(lái)自:123RF 正版圖庫(kù) 來(lái)源:雷科技
原文標(biāo)題 : 蘋果研究員質(zhì)疑大模型!我們測(cè)試了6款,發(fā)現(xiàn)了4大真相
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專題
- 1 【一周車話】沒(méi)有方向盤和踏板的車,你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車,還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 大模型“新星”開(kāi)啟變現(xiàn)競(jìng)速
- 6 海信給AI電視打樣,12大AI智能體全面升級(jí)大屏體驗(yàn)
- 7 AI 投流卷哭創(chuàng)業(yè)者
- 8 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 9 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 10 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市