訂閱
糾錯(cuò)
加入自媒體

大模型編程遇到的問題,也是大模型應(yīng)用的共同問題。

從ChatGPT爆火到進(jìn)入“大模型時(shí)代”相隔不到一年,人工智能已經(jīng)成為了科技圈最重要的風(fēng)口。不僅僅是實(shí)力雄厚的大廠在押注大模型,財(cái)力稍遜的中廠小廠也在嘗試著從人工智能浪潮中“掘金”。

據(jù)研究機(jī)構(gòu)統(tǒng)計(jì),截至9月,國內(nèi)有超過106個(gè)大模型發(fā)布,隨著備案工作的完成,頭部玩家的大模型紛紛向公眾開放,文心一言、訊飛星火、百川、通義千問、混元等大模型的上線也標(biāo)志著這場(chǎng)大模型軍備競(jìng)賽已經(jīng)進(jìn)入白熱化階段。

值得注意的是,在應(yīng)用場(chǎng)景上,頭部玩家們的大模型橫跨客服、工業(yè)、醫(yī)療、汽車、游戲等多個(gè)領(lǐng)域,曾被寄予厚望的關(guān)鍵場(chǎng)景——編程,現(xiàn)下反倒提及的越來越少。

使用人工智能進(jìn)行編程的想法由來已久。2019年,Google Brain發(fā)表了一篇論文,嘗試以深度學(xué)習(xí)的方式輔助程序員進(jìn)行開發(fā)。隨后的幾年中,微軟、谷歌等科技巨頭紛紛開始嘗試?yán)萌斯ぶ悄芫幊,推出了GPT-C、PyMT5等針對(duì)編程場(chǎng)景開發(fā)的模型。

隨著ChatGPT證明了智能涌現(xiàn)的存在,人工智能編程再一次成為科技行業(yè)的重點(diǎn)關(guān)注方向,OpenAI Codex、GitHub Copilot這樣更成熟的編程大模型也出現(xiàn)在了市場(chǎng)上。甚至一度有人認(rèn)為,人工智能將迅速取代程序員的位置,借助人工智能,任何人都可以進(jìn)行開發(fā)工作。

人工智能編程走到了哪個(gè)階段,是否具有商業(yè)化潛力?人人都可以零基礎(chǔ)借助人工智能進(jìn)行開發(fā)工作的愿景是可實(shí)現(xiàn)的嗎?

在與業(yè)內(nèi)人士的交談中,數(shù)據(jù)工程師陳鋒告訴銀杏科技,利用人工智能大模型進(jìn)行編程在理解能力、準(zhǔn)確度上還存在不少問題,技術(shù)尚不足以支撐這一功能商業(yè)化,普及零基礎(chǔ)編程這一目標(biāo)更為遙遠(yuǎn)。

開發(fā)者視角下的AI輔助編程‍

劉航剛剛指導(dǎo)自己8歲的兒子用人工智能開發(fā)了一款小游戲。這是一款基于Javascript的平臺(tái)跳躍游戲,游戲中的小男孩需要不斷跳過建筑物的頂端,玩法類似曾經(jīng)火遍全球的flappy bird。

在劉航的指導(dǎo)下,他的兒子花了整整一周的時(shí)間才完成這款看來有點(diǎn)簡(jiǎn)陋的小游戲。游戲代碼由ChatGPT和Claude生成,美術(shù)資源則由Stable Diffusion提供。

作為一家互聯(lián)網(wǎng)公司的中層,劉航雖然擁有技術(shù)背景,但從未要求上小學(xué)二年級(jí)的兒子學(xué)習(xí)編程。劉航希望能通過開發(fā)小游戲的方式讓兒子學(xué)習(xí)一些相關(guān)的知識(shí)。結(jié)果正如他希望的那樣,作為全世界最聰明的人工智能之一,ChatGPT給出的代碼并不可靠,大多數(shù)情況下都需要?jiǎng)⒑綆е鴥鹤诱J(rèn)真修改之后才能正確運(yùn)行,這給了他教兒子接觸編程的機(jī)會(huì)。

在這個(gè)過程當(dāng)中,劉航一邊驚嘆于人工智能真的可以讓零基礎(chǔ)的兒子完成小游戲,一邊也對(duì)人工智能編程越來越不信任:“代碼寫的有點(diǎn)‘弱智’,低級(jí)錯(cuò)誤一大堆,稍微復(fù)雜一些就徹底不會(huì)了。”

這并不是劉航第一次接觸人工智能編程。今年3月,OpenAi發(fā)布了最新的GPT4,能力之強(qiáng)讓劉航一度產(chǎn)生了將其引入公司開發(fā)流程的想法。但在實(shí)際使用之后他就放棄了:“AIGC本質(zhì)上并不是理解了編程語言,而是從現(xiàn)有案例中生成。因此,開發(fā)者需要準(zhǔn)確描述自己的需求,才能得到相對(duì)正確的結(jié)果。重復(fù)的調(diào)試過程花費(fèi)的時(shí)間并不比直接由開發(fā)者編寫更少。”

另一位開發(fā)者黃一也表示,AI生成的代碼質(zhì)量不確定性太高:“讓AI寫復(fù)雜的代碼,它寫的正確與否還得人重新查一遍,花費(fèi)的時(shí)間可能比直接寫還要多。畢竟代碼需要運(yùn)行才能成為有價(jià)值的交付物。”

技術(shù)到商用為何難以跨越‍

眾所周知,編程語言實(shí)際上是一種用于人與計(jì)算機(jī)之間溝通的語言。在大眾認(rèn)知中,人工智能似乎天生就會(huì)使用這些語言,因此很難想象大模型編程會(huì)遇到何種技術(shù)障礙。

劉航認(rèn)為,程序員“太聰明”,是大模型在編程上顯得“笨拙”的主要原因,當(dāng)前的大模型難以理解他們的需求。

“與人類使用的自然語言不同,計(jì)算機(jī)語言更加精確。自然語言與生俱來的靈活性讓我們可以用各種方式來表達(dá)需求,也可以理解不同場(chǎng)景下語言的內(nèi)涵,人工智能則很難做到這一點(diǎn)。”

劉航用某國內(nèi)大模型無法很好理解中文成語來舉例。

人工智能很好的理解了“青”“梅”“竹”“馬”四個(gè)字,卻無法理解“從小就相好的男女青年”這一引申含義。實(shí)際上,大多數(shù)大模型作畫的都要求用戶“完整描述需求”才能獲得理想的結(jié)果,在編程當(dāng)中也是如此。尤其是對(duì)于復(fù)雜的開發(fā)流程來說,開發(fā)者很難用簡(jiǎn)潔的語言描述清楚自己究竟需要什么,因此要不斷使用不同的Prompt(提示詞)來對(duì)生成的結(jié)果進(jìn)行調(diào)試。

另外,面對(duì)條件和要求各不相同的復(fù)雜問題時(shí),大模型出錯(cuò)的概率會(huì)大大提高,開發(fā)者必須將復(fù)雜的問題分解為多個(gè)步驟,才能得到正確的結(jié)果。

另一個(gè)問題是大模型缺乏判斷能力,無法判斷輸出的結(jié)果是否正確。

數(shù)據(jù)工程師陳鋒告訴銀杏科技,“人類有能力判斷自己是否能夠解決編程問題,但大模型不行。目前訓(xùn)練模型都是通過無監(jiān)督的因果推斷進(jìn)行訓(xùn)練的,換句話說,無論有沒有正確答案,大模型都會(huì)給你一個(gè)看起來似是而非的結(jié)果,驗(yàn)證這個(gè)結(jié)果還需要花費(fèi)大量的時(shí)間。”

同樣欠缺的還有自主學(xué)習(xí)能力。作為一個(gè)需要不斷學(xué)習(xí)新技術(shù)的崗位,程序員尋找和學(xué)習(xí)新知識(shí)的能力是必須的。但對(duì)于大模型來說,學(xué)習(xí)新知識(shí)意味著要對(duì)模型進(jìn)行大量的調(diào)整,需要付出更多的精力和資源。

大語言模型與人類的根本區(qū)別在于學(xué)習(xí)和適應(yīng)新知識(shí)的能力。大模型的“信息更新”并非真正學(xué)會(huì)這些知識(shí),而是基于搜索引擎的推理。要實(shí)現(xiàn)真正的知識(shí)學(xué)習(xí),還需重新訓(xùn)練,如果迭代頻率高的話,訓(xùn)練成本將變得不可接受。

受限于理解能力、判斷能力和學(xué)習(xí)能力的不足,目前市面上的人工智能輔助開發(fā)工具都是針對(duì)較為輕度的使用場(chǎng)景:如自動(dòng)填充代碼段、快速創(chuàng)建函數(shù)、自動(dòng)注釋、優(yōu)化代碼甚至測(cè)試代碼。

以GitHub的Copilot為例,在開發(fā)者提供代碼片段示例后,只要單擊一下Tab鍵,GitHubCopilot就會(huì)給出更多建議。類似的功能Replit Ghostwrite、TabNine、OpenAI Codex、CodeWP等主流人工智能輔助編程產(chǎn)品中都會(huì)提供。

“目前AIGC只能勝任簡(jiǎn)單的測(cè)試和代碼補(bǔ)全,實(shí)際上測(cè)試不用AI也能跑,只有代碼補(bǔ)全能夠略微提高工作效率”,黃一告訴銀杏科技,“要讓企業(yè)為輔助編程AI付費(fèi)目前肯定是不現(xiàn)實(shí)的。”

不只編程受限

編程曾被公認(rèn)為大模型應(yīng)用的“典型場(chǎng)景”,而如今大模型在編程領(lǐng)域遇到的問題,以類似的邏輯存在于其他應(yīng)用場(chǎng)景中。

比如因大模型理解能力的不足,要求更精確的語言輸入,催生了新興技術(shù)“提示詞工程(Prompt Engineering)”。這本質(zhì)上是試圖在不改變模型參數(shù)的情況下優(yōu)化大語言模型的輸出結(jié)果。

提示詞工程的門檻不低,不僅需要設(shè)計(jì)和研發(fā)提示詞,還包含大模型交互和研發(fā)的各種技能和技術(shù)。用戶可以通過提示詞工程更充分的運(yùn)用大模型,比如提高其安全性、借助專業(yè)領(lǐng)域知識(shí)和外部工具來增強(qiáng)其能力。

但顯而易見的是,對(duì)于大多數(shù)使用場(chǎng)景來說,專門去學(xué)習(xí)一門和人工智能交互的技術(shù)是性價(jià)比極低的。即使出現(xiàn)“提示詞工程師”這種職業(yè),在未形成行業(yè)規(guī)范與應(yīng)用標(biāo)準(zhǔn)前,他們也很難有所作為。

在編程之外的領(lǐng)域,缺乏判斷能力的AI會(huì)生成偏離事實(shí)的內(nèi)容,被稱為“人工智能幻覺”。這類技術(shù)缺陷限制了大模型的商業(yè)化潛力,因?yàn)槭忻嫔匣诖竽P偷漠a(chǎn)品開發(fā)顯得相對(duì)謹(jǐn)慎,集中于幾個(gè)常規(guī)領(lǐng)域,如美顏相機(jī)、語音助手等。

以國內(nèi)top廠商提供的大模型相關(guān)服務(wù)來看,目前大模型主要為用戶提供增值服務(wù),能夠獨(dú)立成為產(chǎn)品的少之又少。綜合2023上半年多家企業(yè)財(cái)報(bào),商湯科技、三六零、科大訊飛、拓爾思、值得買、中文在線等企業(yè)明確表示AIGC相關(guān)業(yè)務(wù)已經(jīng)產(chǎn)生了收入。

商湯科技生成式AI相關(guān)收入在上半年錄得670.4%的同比增長,對(duì)集團(tuán)業(yè)務(wù)的貢獻(xiàn)也從2022年的10.4%迅速提升至20.3%;360智腦給中小企業(yè)客戶提供AI增值服務(wù),取得近2000萬元收入;科大訊飛AI學(xué)習(xí)機(jī)GMV在5月和6月分別大增136%、217%;拓爾思AIGC業(yè)務(wù)實(shí)現(xiàn)營業(yè)收入782萬元;值得買站內(nèi)“機(jī)器貢獻(xiàn)”內(nèi)容發(fā)布量同比大增98.09%。

增值服務(wù)已經(jīng)在不同領(lǐng)域?yàn)榇竽P托袠I(yè)帶來了一些收入,但這樣的體量很難覆蓋大模型的訓(xùn)練成本,更不要說支撐行業(yè)進(jìn)一步發(fā)展甚至誕生新的業(yè)態(tài)。

借用丘吉爾的話,“這不是結(jié)束,甚至不是結(jié)束的開始,可能只是開始的結(jié)束”。

技術(shù)與應(yīng)用之間的壁壘仍舊高聳,比起談概念,行業(yè)或許更需要的是發(fā)現(xiàn)真實(shí)需求、解決具體問題。

       原文標(biāo)題 : 大模型編程遇到的問題,也是大模型應(yīng)用的共同問題。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)