百度、訊飛、阿里大模型高考作文挑戰(zhàn):都不及格,還有的讀不懂題
又到了一年一度的高考時(shí)間,作為6月份關(guān)注度最高的事情,每年的高考總是能夠引來(lái)各路大神關(guān)注,不少自認(rèn)文采出眾的網(wǎng)友,還會(huì)挑戰(zhàn)現(xiàn)場(chǎng)寫(xiě)一篇高考作文,然后讓大家進(jìn)行評(píng)分。
不過(guò),今年的高考作文整活,似乎因?yàn)槟承〇|西的出現(xiàn)而有了不一樣的結(jié)果。
是的,就是登上熱搜的AI高考作文,AI寫(xiě)高考作文在去年其實(shí)就已經(jīng)有公司在嘗試,寫(xiě)出來(lái)的文章從架構(gòu)到立意都相當(dāng)不錯(cuò),即使是有著多年教學(xué)經(jīng)驗(yàn)的老教師,看了都直接打個(gè)高分。
看到這里,或許你已經(jīng)知道小雷想要整什么活了。沒(méi)錯(cuò),作為AI測(cè)試大師的小雷(ID:leitech),決定拿今年的高考作文命題去考考國(guó)內(nèi)的各大AI,看看大家寫(xiě)的作文水平到底如何?
當(dāng)然,除了國(guó)內(nèi)的AI,小雷也找來(lái)了一些海外的AI,看看這些“洋和尚”遇到中國(guó)高考,能不能整出一些新的花樣。
廢話(huà)不多說(shuō),讓我們直接來(lái)看看各家的作文都寫(xiě)得怎么樣吧。
題目就一句話(huà),能難倒AI嗎?
在今年的高考作文命題中,上海卷可能是最讓學(xué)生蒙圈的,上海卷的出題老師非常徹底的貫徹了“惜字如金”四個(gè)字,整個(gè)作文命題的描述加起來(lái)只有21個(gè)字:“一個(gè)人樂(lè)意去探索陌生世界,僅僅是因?yàn)楹闷嫘膯? ”,作為曾經(jīng)的高考生,小雷我是最怕遇到這種命題作文的,從網(wǎng)絡(luò)上的聲音來(lái)看,大家也是如此。
面對(duì)這種只有一句話(huà)描述的作文題目,AI又會(huì)如何去解讀并回答呢?
先來(lái)看看訊飛的星火大模型。
圖源:雷科技
一篇標(biāo)準(zhǔn)的討論文,作為曾經(jīng)的文科生,小雷表示:“這個(gè)我熟”,從個(gè)人角度而言,訊飛星火給的這篇文章質(zhì)量是很高的,AI首先肯定了“好奇心”是人類(lèi)探索陌生世界的一大原因,并且對(duì)“好奇心”如何驅(qū)動(dòng)我們?nèi)ヌ剿魑粗龀隽私忉尅?/p>
然后訊飛星火以此進(jìn)一步擴(kuò)展,提出了探索陌生世界并非僅僅是因?yàn)楹闷嫘,并且從個(gè)人的成長(zhǎng)、情感以及精神追求等方面進(jìn)行解讀,最后再用總結(jié)點(diǎn)題,我的評(píng)價(jià)就八個(gè)字:“有理有據(jù),令人信服”。
唯一的問(wèn)題是,文章的字?jǐn)?shù)似乎不到800字,從WPS給出的字?jǐn)?shù)統(tǒng)計(jì)來(lái)看是762個(gè)字(加上標(biāo)點(diǎn)符號(hào)),按照審稿規(guī)范,估計(jì)會(huì)扣掉一些分?jǐn)?shù) 。
接下來(lái),我們有請(qǐng)通義千問(wèn)來(lái)作答。
圖源:雷科技
與訊飛星火不同,通義千問(wèn)用了另一個(gè)角度來(lái)解答命題,在開(kāi)頭同樣先對(duì)“好奇心”驅(qū)使我們探索未知世界這段話(huà)進(jìn)行了解析,然后再?gòu)纳缃恍枰、求知欲和探索欲等方面進(jìn)行解讀。
不過(guò),在文章的倒數(shù)第二段,或許是出于對(duì)提問(wèn)者的建議,通義千問(wèn)加入了一段“安全提示”。雖然從內(nèi)容來(lái)說(shuō)是沒(méi)有問(wèn)題的,但是,如果將其作為高考作文來(lái)看,倒數(shù)第二段就看起來(lái)有點(diǎn)突兀了,審稿老師估計(jì)也會(huì)一臉懵逼,所以,即使前面寫(xiě)得不錯(cuò),也會(huì)因此而扣掉一些分?jǐn)?shù)。
下一個(gè)“作者”是百度的文心一言,看看它又會(huì)怎樣回答這個(gè)問(wèn)題?
圖源:雷科技
文心一言同樣選擇以討論文的形式來(lái)撰寫(xiě)作文,當(dāng)然,這也是目前AI最擅長(zhǎng)的文章類(lèi)型。從內(nèi)容角度來(lái)說(shuō),文心一言的回答也是十分不錯(cuò)的,但是過(guò)多的段落和轉(zhuǎn)折詞,使得文章有點(diǎn)像“流水賬”。
不過(guò)在最后的立意點(diǎn)題上,文心一言給出的回答則更好一些,沒(méi)有局限于個(gè)人層面,而是擴(kuò)大到對(duì)其他個(gè)體的思考與包容中,給出了更宏大的立意。
接下來(lái)讓我們看看“洋和尚”的表現(xiàn),首先是谷歌投資的Claude。
圖源:雷科技
首先從字?jǐn)?shù)上看,Claude恐怕就沒(méi)有合格,WPS的檢測(cè)結(jié)果顯示這篇文章的字?jǐn)?shù)為646,離800字還有一些距離。不過(guò),從內(nèi)容上看,Claude確實(shí)是給出了不同于國(guó)產(chǎn)AI的解答,它從人類(lèi)本身出發(fā),以冒險(xiǎn)基因和進(jìn)取精神為核心,解讀了人類(lèi)為什么要探索陌生世界。
從立意上來(lái)說(shuō),Claude或許是目前出場(chǎng)的AI中最高的,不僅僅是講到人類(lèi),更是將話(huà)題拓展到了文明的發(fā)展與延續(xù)、人類(lèi)的未來(lái)等方面,讓人不禁有種“不明覺(jué)厲”的感覺(jué)。
不過(guò),考慮到命題更多的是對(duì)個(gè)體想法的探索,雖然文章內(nèi)容不錯(cuò),但是恐怕也拿不到滿(mǎn)分或是特別高的分?jǐn)?shù)。
最后,就讓我們來(lái)看看ChatGPT的回答吧,鑒于時(shí)間關(guān)系,小雷最終是在New Bing上得到的答復(fù)。
圖源:雷科技
不得不說(shuō),New Bing給出的文章是所有回答中最長(zhǎng)的,字?jǐn)?shù)高達(dá)1144個(gè),考慮到文科答卷的作文答題區(qū)大小,恐怕會(huì)超出限制,卷面分和文章本身的分?jǐn)?shù)都會(huì)因此大打折扣。
至于文章本身,New Bing選擇從人類(lèi)本身去探討這個(gè)問(wèn)題,然后分別從求知欲、創(chuàng)造欲、競(jìng)爭(zhēng)欲、自我實(shí)現(xiàn)等方面來(lái)討論人類(lèi)為什么要探索陌生世界,立意方面也是與Claude相似,喜歡從人類(lèi)角度來(lái)思考這個(gè)問(wèn)題。
從這里其實(shí)就可以看出海內(nèi)外生成式AI在邏輯上的區(qū)別,在面對(duì)相同的問(wèn)題時(shí),海外的AI有時(shí)候會(huì)傾向于從一個(gè)更大的層面上去進(jìn)行解讀,而國(guó)內(nèi)的AI則更加扣題,選擇從個(gè)人角度出發(fā)進(jìn)行解讀。
我認(rèn)為兩者存在差異的原因主要有兩點(diǎn):一是海外的訓(xùn)練數(shù)據(jù)與國(guó)內(nèi)的訓(xùn)練數(shù)據(jù)不同;二是對(duì)中文問(wèn)題的理解不同,國(guó)內(nèi)的中文互聯(lián)網(wǎng)有著過(guò)去歷年的高考題目,所以AI在看到類(lèi)似的題目時(shí),會(huì)優(yōu)先與相近的數(shù)據(jù)進(jìn)行匹配,最終寫(xiě)出一篇類(lèi)似于高考作文的成品,而海外的AI則是將其看做對(duì)“人類(lèi)探索陌生世界”問(wèn)題的解讀,所以選擇從一個(gè)更廣泛的角度進(jìn)行回答。
至于哪個(gè)AI的文章更好,或許就因人而異了,喜歡科幻、喜歡宏大敘事的讀者,或許會(huì)更喜歡“洋和尚”的文章,從個(gè)人角度來(lái)說(shuō)的話(huà),國(guó)內(nèi)的AI則表現(xiàn)得更好一些。
作文命題二選一,AI能理解嗎?
在本次的高考作文中,北京卷是給出了兩個(gè)命題,考生可以二選一進(jìn)行作答,那么對(duì)于AI來(lái)說(shuō),它們遇到“選擇題”時(shí),又會(huì)給出怎樣的回答呢?
首先是訊飛星火。
圖源:雷科技
內(nèi)容來(lái)說(shuō)是沒(méi)什么問(wèn)題的,但是訊飛星火卻同時(shí)給出了兩篇文章,顯然是沒(méi)有意識(shí)到題目中的“任選一題”四個(gè)字的含義,而且從字?jǐn)?shù)上看,兩篇均為500字左右,加起來(lái)是滿(mǎn)足700字以上的要求了,但是單獨(dú)算得話(huà),全都不及格。
那么通義千問(wèn)呢?
圖源:雷科技
問(wèn)題同樣存在,一樣是寫(xiě)了兩篇文章,一樣是五百字左右,基本上與訊飛星火犯了一樣的錯(cuò)誤。
圖源:雷科技
國(guó)內(nèi)三巨頭里,目前來(lái)看只有文心一言正確理解了題意,從中選擇了“續(xù)航”為題目并撰寫(xiě)了一篇文章,單就這一點(diǎn)來(lái)說(shuō),已經(jīng)是贏了。但是,具體到文章本身來(lái)說(shuō),過(guò)于簡(jiǎn)單且字?jǐn)?shù)僅400+,甚至比訊飛星火和通義千問(wèn)還少,放到高考里基本上就是不合格的了。
再來(lái)看看兩個(gè)“洋和尚”表現(xiàn)如何,首先是Claude。
圖源:雷科技
Claude也成功理解了題意,并且給出了自己的見(jiàn)解,從字?jǐn)?shù)上來(lái)看,居然是目前所有AI中最接近的,足足有625個(gè)字,而且文章也從“續(xù)航”本身的詞義,到人生、社會(huì)、科技等方面進(jìn)行了不同的解讀,總體而言更具有可讀性和連貫性,表現(xiàn)十分不錯(cuò)。
另一方面,New Bing則是給了我一個(gè)“驚喜”。
圖源:雷科技
是的,New Bing也理解了題意,但是它反過(guò)來(lái)問(wèn)我想讓它選擇回答哪個(gè)問(wèn)題,說(shuō)實(shí)話(huà)挺樂(lè)的,而在我做出了選擇后,New Bing又給了我一篇900+字?jǐn)?shù)的文章。從文章內(nèi)容,結(jié)構(gòu)以及字?jǐn)?shù)要求來(lái)說(shuō),New Bing是在這個(gè)環(huán)節(jié)中表現(xiàn)最好的(如果忽略掉反問(wèn)我如何選擇的話(huà))。
而且,在測(cè)試過(guò)程中,New Bing還會(huì)提示“正在思考,請(qǐng)等待”的回答,然后我足足等了五分鐘都沒(méi)有下文(偷懶是吧?),最終在我的催促下,New Bing的文章才姍姍來(lái)遲,活脫脫上班想摸魚(yú)卻被老板抓現(xiàn)行的員工。
最后
AI寫(xiě)高考作文,雖然本質(zhì)上是整活,但是也可以側(cè)面反映目前的各個(gè)平臺(tái)的AI技術(shù)能力如何。從以上兩個(gè)測(cè)試的表現(xiàn)來(lái)看,目前國(guó)內(nèi)理解能力最強(qiáng)的應(yīng)該是文心一言,畢竟是唯一能夠理解北京卷題意的AI,而在文章結(jié)構(gòu)和內(nèi)容來(lái)說(shuō),訊飛、文心、通義都差不多,不過(guò)訊飛的更像一篇普通作文。
至于海外的“洋和尚”,從表現(xiàn)來(lái)看確實(shí)是領(lǐng)先國(guó)內(nèi)AI平臺(tái)不少的,至少在提問(wèn)的理解能力上要高出不少,但是因?yàn)槿狈?guó)內(nèi)中文互聯(lián)網(wǎng)的訓(xùn)練數(shù)據(jù)的原因,所有在遇到這些帶有“中國(guó)特色”的提問(wèn)時(shí),會(huì)選擇從普通提問(wèn)的角度去解答。
總的來(lái)說(shuō),目前生成式AI還在快速發(fā)展,各家都有著獨(dú)特的優(yōu)點(diǎn),同樣也存在一些問(wèn)題,比如對(duì)文章的字?jǐn)?shù)要求總是無(wú)法正確理解等。但是,考慮到它們誕生的時(shí)間,已經(jīng)是相當(dāng)恐怖的學(xué)習(xí)效率了。
來(lái)源:雷科技
原文標(biāo)題 : 百度、訊飛、阿里大模型高考作文挑戰(zhàn):都不及格,還有的讀不懂題
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月28日立即報(bào)名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 【一周車(chē)話(huà)】沒(méi)有方向盤(pán)和踏板的車(chē),你敢坐嗎?
- 2 特斯拉發(fā)布無(wú)人駕駛車(chē),還未迎來(lái)“Chatgpt時(shí)刻”
- 3 特斯拉股價(jià)大跌15%:Robotaxi離落地還差一個(gè)蘿卜快跑
- 4 馬斯克給的“驚喜”夠嗎?
- 5 大模型“新星”開(kāi)啟變現(xiàn)競(jìng)速
- 6 海信給AI電視打樣,12大AI智能體全面升級(jí)大屏體驗(yàn)
- 7 AI 投流卷哭創(chuàng)業(yè)者
- 8 打完“價(jià)格戰(zhàn)”,大模型還要比什么?
- 9 馬斯克致敬“國(guó)產(chǎn)蘿卜”?
- 10 神經(jīng)網(wǎng)絡(luò),誰(shuí)是盈利最強(qiáng)企業(yè)?
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市