不久前,商湯科技展示了旗下的多個大模型。與其他家有所不同的是,商湯的大模型體系可以以視覺為核心,結(jié)合語言及各種模態(tài)的數(shù)據(jù),形成多模態(tài)的應(yīng)用支持能力。
這樣的技術(shù)路線可以保證模型從百億參數(shù)到千億參數(shù)到后面萬億參數(shù),每一步都能用在實際行業(yè)和產(chǎn)品里,形成用戶反饋閉環(huán),有利于下一步的模型迭代。
文|趙艷秋 徐鑫
編|周路平
ChatGPT掀起的大模型熱潮,讓國內(nèi)大模型的訓(xùn)練進(jìn)入白熱化階段。
4月10日,商湯科技在上海臨港智算中心舉辦的技術(shù)交流日上,公布了大模型體系“日日新SenseNova”。該名稱取自《禮記·大學(xué)》“茍日新、日日新、又日新”,商湯科技董事長徐立調(diào)侃稱,之所以叫日日新,是因為“茍日新”不好聽。而這一名字是希望在模型迭代速度及處理問題的能力上可以日日更新,不斷解鎖AGI更多可能。
商湯并未公布大模型采用的技術(shù)路線,但商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒透露,人類生活中至少有80%的信息來自于視覺,憑借商湯在視覺領(lǐng)域的積累,加入語言、代碼等不同信息做深度的融合,可以訓(xùn)練出更好的多模態(tài)大模型。這與百度、阿里等有所不同。目前,業(yè)界大廠都在不同技術(shù)路線上摸索大模型技術(shù),追趕OpenAI。
01
商湯大模型,從視覺走向AGI
盡管臨港位置較偏,但擋不住人們對大模型的關(guān)注熱情,F(xiàn)場擠滿了來自全國各地的合作伙伴,他們也在尋找新的技術(shù)范式能與自身業(yè)務(wù)的結(jié)合點。
商湯當(dāng)天展示了“日日新SenseNova”大模型體系下的語言大模型,還展示了AI文生圖創(chuàng)作、2D/3D數(shù)字人生成、大場景/小物體生成等生成式AI模型及應(yīng)用,在領(lǐng)域模型之上,結(jié)合各個行業(yè)的數(shù)據(jù)形成行業(yè)落地的閉環(huán)。
相比于國內(nèi)外大模型,陳宇恒告訴數(shù)智前線,視覺感知是商湯的優(yōu)勢之一。目前,商湯已研發(fā)了320億參數(shù)量的全球最大通用視覺模型,實現(xiàn)了目標(biāo)檢測、圖像分割和多物體識別算法。早在2019年,商湯已推出10億參數(shù)量規(guī)模的視覺模型,在2021年~2022年,商湯訓(xùn)練了百億參數(shù)規(guī)模的超大視覺模型,相當(dāng)于千億參數(shù)語言模型的訓(xùn)練量。
目前,視覺大模型在多個領(lǐng)域落地應(yīng)用。例如,在智能駕駛領(lǐng)域,商湯實現(xiàn)了BEV環(huán)視感知,做到了3000類物體的高精度識別,還構(gòu)建了感知決策一體化的自動駕駛多模態(tài)大模型,帶來更強(qiáng)的環(huán)境、行為、動機(jī)解碼能力。
就在商湯公布大模型之前的幾天,美國Meta公司發(fā)布了首個圖像分割的基礎(chǔ)大模型SAM,它通過自然語言的輸入,去完成物體的分割。陳宇恒稱,相關(guān)技術(shù)能力商湯已經(jīng)具備,商湯視覺大模型在很多測試集上完成領(lǐng)先測試。相比美國的視覺大模型,陳宇恒認(rèn)為,商湯的優(yōu)勢點在于,國內(nèi)的應(yīng)用場景廣闊,結(jié)合其在城市、自動駕駛、商業(yè)元宇宙等領(lǐng)域的行業(yè)積累,形成應(yīng)用閉環(huán)。
在基礎(chǔ)大模型之上,商湯當(dāng)天公布自研中文語言大模型“商量SenseChat”,是一個類ChatGPT應(yīng)用,其參數(shù)量達(dá)千億。數(shù)智前線獲悉,在ChatGPT之前,商湯在NLP技術(shù)上已有數(shù)年積累,并早在2021年就應(yīng)用在商湯的數(shù)字人等產(chǎn)品中,實現(xiàn)語音、NLP和視覺的全方位自研。
雖然大眾關(guān)注大模型的“對話互動能力”,但業(yè)界更關(guān)注其背后的“理解推理水平”,這也是體現(xiàn)大模型能力的關(guān)鍵。徐立在現(xiàn)場著重展示了“商量”對長文本的理解和歸納能力。在徐立輸入了《專利法》的PDF文件后,系統(tǒng)快速閱讀理解《專利法》,并根據(jù)用戶針對此文輸入的問題,給出相應(yīng)的答案。從結(jié)果來看,大模型并沒有直接從《專利法》中復(fù)制對應(yīng)的結(jié)果,而是在理解問題之后,生成總結(jié)性答案,也可以對比最新的專利法,給出前后做了哪些修改。
在人工智能內(nèi)容生成方面,基于日日新大模型,商湯也推出了一系列生成式AI模型及應(yīng)用,涵蓋圖片生成、數(shù)字人視頻生成、3D內(nèi)容生成等。商湯對這些模型的應(yīng)用場景也進(jìn)行了一一展示。
比如徐立現(xiàn)場演示了文生圖平臺“秒畫SenseMirage”,他先后輸入了“站在窗邊的中國女性”,“站在窗邊的穿漢服的中國女性”等關(guān)鍵字,起初表現(xiàn)效果都很好,之后輸入了“80年代港風(fēng)”作為關(guān)鍵字,但是生成的圖片并沒有顯著的港風(fēng)效果,這說明大模型對于該垂類風(fēng)格的學(xué)習(xí)強(qiáng)度不及預(yù)期;但隨后他將準(zhǔn)備好的20張經(jīng)典港風(fēng)圖片“投喂”給大模型,以商湯自研作畫模型作為基模型來訓(xùn)練定制化LoRA模型,在幾分鐘后就生成了一個表達(dá)港風(fēng)效果較好的LoRA模型。這種根據(jù)小批量樣本快速適配新風(fēng)格的學(xué)習(xí)能力也是商湯自研作畫大模型的一個顯著優(yōu)點。
陳宇恒透露,之所以做多個大模型,主要是可以以視覺為核心,結(jié)合語言及各種模態(tài)的數(shù)據(jù),形成多行業(yè)應(yīng)用的方案。同時,這樣的技術(shù)路線相對更平滑,可以保證模型從百億參數(shù)到千億參數(shù)到后面萬億參數(shù),每一步都能用在實際行業(yè)和產(chǎn)品里,形成用戶反饋閉環(huán),有利于下一步的模型迭代。
從大的方向上,未來商湯要去挑戰(zhàn)更大的模型,不斷去接近通用人工智能。
02
構(gòu)建用戶與大模型的飛輪
在公布大模型的同時,商湯也介紹了其行業(yè)應(yīng)用目標(biāo)和情況。這是國內(nèi)企業(yè)的特色。他們需要第一時間考慮產(chǎn)業(yè)落地問題。
而要“煉”出真正有價值的大模型,則需要建立用戶與模型反饋的閉環(huán)。這是業(yè)界從OpenAI得到的啟示。OpenAI在做出幾版大模型后,建立起真實用戶調(diào)用和模型迭代之間的飛輪。
數(shù)智前線獲悉,商湯的大模型將更多服務(wù)B端客戶,目前已落地20多個業(yè)務(wù)場景。
比如,在智能汽車領(lǐng)域,視覺大模型可以充當(dāng)“半自動標(biāo)注機(jī)器人”,對路測回游的數(shù)據(jù)進(jìn)行過濾和預(yù)標(biāo)注,讓標(biāo)注效率提高4 倍以上。商湯當(dāng)天公布了自動化數(shù)據(jù)標(biāo)注平臺“明眸”,支持智能駕駛、智慧交通、智慧城市等多種場景的2D分類、檢測和3D檢測的智能標(biāo)注。
大模型還可以解決智能駕駛過程中的Corner Case(邊角案例)問題,也就是人們無法想到或不常見的事情。之前,傳統(tǒng)小模型會像“狗熊掰棒子”一樣,學(xué)了新的Corner Case,經(jīng)常就“忘了”舊的,大模型能化解這個瓶頸,讓其更可靠。而這兩個問題也是目前自動駕駛邁向L3、 L4商用過程中的兩大痛點。
再如,在生物醫(yī)藥科研領(lǐng)域,通過大模型,把蛋白質(zhì)結(jié)構(gòu)的預(yù)測時間縮短到1/60,從而大幅提高了抗體篩選的效率。
元宇宙也是大模型很好的應(yīng)用場景。元宇宙是多種技術(shù)的結(jié)合體,像AR、VR、人工智能內(nèi)容生成 、文本生成 3D 模型、文本生成視頻等……大模型可以化解元宇宙內(nèi)容制作成本過高的痛點。
而大模型的泛化能力,讓原來很多長尾事件,變得可以解決。比如在智慧城市領(lǐng)域,大模型可以改善城市的各類運(yùn)營的工作,如垃圾拋灑、糞車排放、單車違停等。
業(yè)界都認(rèn)為大模型是一種新的技術(shù)范式,就像蒸汽機(jī)的出現(xiàn),將能源轉(zhuǎn)換效率提高了幾十倍;電力的出現(xiàn),又把能源轉(zhuǎn)換效率再提升了幾十倍,F(xiàn)在大模型可以把傳統(tǒng)小模型的生產(chǎn)效率提升幾十倍甚至上百倍,以非常低的成本服務(wù)于各行各業(yè),為各行業(yè)的效率帶來翻天覆地的變化。
商湯目前聚焦在智能汽車、智慧生活、智慧商業(yè)、智慧城市四大業(yè)務(wù)線的產(chǎn)品矩陣。要實現(xiàn)落地,還要同時思考如何構(gòu)建產(chǎn)品體驗,并以更高性價比的方式為客戶提供。
陳宇恒告訴數(shù)智前線,商湯首先會提供整套工具鏈,讓業(yè)界從基礎(chǔ)大模型出發(fā),或者基于開源大模型,進(jìn)行微調(diào),形成適合自己的模型。商湯有可能提供云上的隱私計算,幫助用戶解決數(shù)據(jù)隱私的風(fēng)險。
商湯還準(zhǔn)備通過各種產(chǎn)品形態(tài),包括私有化產(chǎn)品形態(tài),提供給用戶部署使用。
同時,商湯也會提供Model as a Service的API ,供用戶低成本調(diào)用,還能通過知識蒸餾手段,把大模型的能力遷移到一些較小的模型上,滿足一些成本敏感行業(yè)的訴求。
“從行業(yè)落地角度,我們可以訓(xùn)練一個超大模型,然后再外掛小一點的模型,類似lora或Hypernet技術(shù),通過外掛小模型的微調(diào)和訓(xùn)練,把大模型的推理成本分?jǐn)傁氯ァ?rdquo;他說。
03
兩大難題如何突破
一口氣展示多個大模型技術(shù)之后,外界很關(guān)心商湯在算力上的儲備情況,以及高質(zhì)量語料不足的情況下商湯如何應(yīng)對。
數(shù)智前線獲悉,在大模型的風(fēng)刮起來之前,商湯已在規(guī)劃AI大裝置,2020年在臨港建設(shè)了建筑面積接近20個足球場的AIDC,2022年正式投入使用。目前里面放置了5000個服務(wù)器機(jī)柜和27000塊GPU,據(jù)說能同時滿足20個類ChatGPT模型的訓(xùn)練。
業(yè)界廣為流傳是“萬張GPU卡是進(jìn)入大模型領(lǐng)域的入場券”。有業(yè)內(nèi)人士表示,“標(biāo)準(zhǔn)大小的ChatGPT(參數(shù)1750億)大概需要375-625臺8卡A100服務(wù)器進(jìn)行訓(xùn)練。如果愿意等1個月的話,150-200臺8卡也是夠的。每次訓(xùn)練總的GPU資源消耗量是35000卡天。”這個體量與商湯提到的訓(xùn)練大模型所需要的算力消耗規(guī)模在同一個數(shù)量級,當(dāng)然該人士明確指出GPU類型是A100。
陳宇恒還談到一個認(rèn)知誤區(qū),算力的核心衡量指標(biāo)并非單指顯卡數(shù)量。他認(rèn)為,訓(xùn)練人工智能大模型是“工程的奇跡”,有兩大難題需要跨越:
其一是多卡并行狀態(tài)下的有效利用率,即能夠支撐大模型訓(xùn)練的實際算力,這涉及系統(tǒng)架構(gòu)和網(wǎng)絡(luò)架構(gòu)設(shè)計。“1萬張卡和1000張卡,理論上有10倍的訓(xùn)練速度提升,如果沒有設(shè)計良好的系統(tǒng)架構(gòu)設(shè)計,可能最終只有2倍的訓(xùn)練效率提升 ”。
其二是系統(tǒng)能夠持續(xù)穩(wěn)定運(yùn)行的時長。如果每天每千張GPU有1張卡發(fā)生故障,當(dāng)有1萬張卡時,系統(tǒng)每天的穩(wěn)定運(yùn)行時間可能只有一兩個小時,這是沒法使用的。這要從硬件的可靠性和軟件的容錯能力角度去解決。
如何從幾千張卡的集群,到未來上萬張卡更大規(guī)模集群的部署,商湯正在努力建設(shè)優(yōu)化中。目前,商湯的AI大裝置已能夠以最大4000卡規(guī)模集群進(jìn)行單任務(wù)訓(xùn)練,并可做到七天以上不間斷的穩(wěn)定訓(xùn)練。
困擾業(yè)界的另一問題是,如何獲取足夠多的高質(zhì)量數(shù)據(jù)語料。以GPT-3為例,它學(xué)習(xí)了約5000億的語言數(shù)據(jù)量。而相比之下,人類的一生中可聽到的大概是10億個單詞。所以,今天人工神經(jīng)網(wǎng)絡(luò)能夠處理或者看的知識量,已經(jīng)遠(yuǎn)遠(yuǎn)大于一個人一生中能學(xué)到的單詞數(shù)。而今天已知最大語言模型消耗的數(shù)據(jù)量是2萬億個token。而據(jù)統(tǒng)計,人類文明產(chǎn)生的高質(zhì)量語料數(shù)據(jù)一共是9萬億左右。因此,隨著倍數(shù)往上走,很快就會面臨著高質(zhì)量語料被消化完的局面。數(shù)智前線了解到,巨頭企業(yè)都正在尋求各類高質(zhì)量的語料資源。
“研究表明,有超過80%的信息是通過肉眼獲取的。”陳宇恒稱,把整個互聯(lián)網(wǎng)的文本數(shù)據(jù)匯集做適當(dāng)?shù)那逑粗,只有不?0個T的數(shù)據(jù),但是像最大的圖像公開數(shù)據(jù)集,它有50億張圖像,大小達(dá)到240T;視覺的信息量是文本信息量的非常多倍。“由此可以看到,以視覺大模型作為核心的技術(shù)突破點,去擴(kuò)展到語言大模型等一些多模態(tài)的路線,是符合人類理解世界的基本邏輯,以及符合我們互聯(lián)網(wǎng)生成數(shù)據(jù)的分布邏輯的。”
商湯在過往積累了大量的、有人反饋的、視覺類信息,這類信息作為知識輸入到更大的網(wǎng)絡(luò)當(dāng)中,形成多模態(tài)輸入,則打破了原有數(shù)據(jù)庫的信息局限。商湯的語言大模型正是基于這一點快速發(fā)展,獲取豐富的多模態(tài)語料數(shù)據(jù)。
此外,合理調(diào)配不同語言的語料比例,或者設(shè)計好數(shù)據(jù)經(jīng)過模型的順序和比例,包括設(shè)計不同領(lǐng)域知識的占比,再輔以不同語言的知識融合能力,也能使模型有更好的性能。
在未來,討論大模型,討論的將主要是模型的計算量。目前,除了上海的人工智能智算中心,商湯還在全國主要城市部署20多個超算集群。商湯強(qiáng)調(diào),這些AI原生基礎(chǔ)設(shè)施,為人工智能算法的訓(xùn)練、調(diào)度提供了敏捷、彈性、可靠的底座,也讓商湯得以持續(xù)優(yōu)化大模型建設(shè),并賦能各個行業(yè)。
而隨著越來越多的企業(yè)進(jìn)入市場,大模型領(lǐng)域的競爭正在成為一場算力、算法和數(shù)據(jù)相結(jié)合的全方位戰(zhàn)事。