DBRX達1320億參數(shù),最強開源模型易主
前言:
DBRX的誕生標志著全球范圍內(nèi)開源人工智能語言模型技術(shù)的最新巔峰,并預示著人工智能技術(shù)的發(fā)展已正式進入全新階段。
該模型通過深度學習技術(shù)和大規(guī)模訓練數(shù)據(jù)的結(jié)合,不僅在自然語言處理領(lǐng)域表現(xiàn)出色,更在程序代碼解析與生成、復雜數(shù)學計算以及邏輯推理等多個領(lǐng)域展現(xiàn)了前所未有的卓越能力。
作者 | 方文三
圖片來源 | 網(wǎng) 絡(luò)
全球最強開源大模型王座易主
近期,全球開源大模型領(lǐng)域迎來了重大變革,創(chuàng)業(yè)公司Databricks推出的新型開源模型DBRX在技術(shù)層面已超越先前的領(lǐng)軍者Llama 2、Mixtral和Grok-1,榮登全球最強開源大模型之巔。
這一突破性的成就,無疑為開源模型領(lǐng)域樹立了新的里程碑。
值得注意的是,DBRX在訓練成本上實現(xiàn)了顯著降低。Databricks公司僅投入1000萬美元及3100塊H100芯片,便高效地在兩個月內(nèi)完成了DBRX的訓練。
相較于Meta開發(fā)Llama2所需的龐大投入,這一成本展示了Databricks公司在技術(shù)效率與成本控制上的卓越能力。
在性能表現(xiàn)方面,DBRX同樣展現(xiàn)出了強大的實力。無論是在語言理解、編程、數(shù)學還是邏輯領(lǐng)域,DBRX均輕松超越了開源模型LLaMA2-70B、Mixtral和Grok-1。
更值得一提的是,DBRX的整體性能甚至超越了GPT-3.5,尤其在編程方面,DBRX展現(xiàn)出了超越GPT-3.5的卓越性能。
DBRX大模型,使用MoE架構(gòu)
Databricks公司最近推出了開源模型DBRX,其參數(shù)規(guī)模高達1320億。
這款模型采用了先進的細粒度MoE架構(gòu),每次輸入僅需使用360億參數(shù),顯著提升了每秒token吞吐量。
DBRX通過細粒度專家混合(MoE)架構(gòu),擁有更多的專家模型,從而在推理速度上大幅超越了LLaMA 2-70B,實現(xiàn)了兩倍的提升。
DBRX是一款基于Transformer純解碼器的大模型,同樣采用下一token預測進行訓練。
在MoE中,模型的某些部分會根據(jù)查詢內(nèi)容啟動,有效提高了模型的訓練和運行效率。
相較于其他開源MoE模型如Mixtral和Grok-1,DBRX采用了細粒度設(shè)計,使用更多數(shù)量的小型專家。
DBRX擁有16個專家模型,每次選擇4個使用,而Mixtral和Grok-1則分別擁有8個專家模型,每次選擇2個。
這種設(shè)計使得DBRX提供了65倍可能的專家組合,極大地提高了模型質(zhì)量。
此外,DBRX還采用了旋轉(zhuǎn)位置編碼(RoPE)、門控線性單元(GLU)和分組查詢注意力(GQA)等技術(shù),以提高模型質(zhì)量。同時,DBRX還使用了tiktoken存儲庫中提供的GPT-4分詞器。
在方法層面,DBRX模型(包括預訓練數(shù)據(jù)、模型架構(gòu)和優(yōu)化策略)與上一代的MPT模型相當,但計算效率提高了近4倍。
三大核心能力表現(xiàn)突出
①經(jīng)過綜合評估,DBRX的“微調(diào)版”Instruct在多個基準測試中表現(xiàn)卓越。
在Hugging Face Open LLM Leaderboard這一復合基準測試中,DBRX Instruct以74.5%的得分榮登榜首,顯著領(lǐng)先于第二名Mixtral Instruct的72.7%。
同時,在Databricks Model Gauntlet這一包含超過30項任務(wù)、橫跨六個領(lǐng)域的評估套件中,DBRX Instruct同樣以66.8%的得分拔得頭籌,較第二名Mixtral Instruct的60.7%有著明顯優(yōu)勢。
②DBRX Instruct在編程和數(shù)學相關(guān)任務(wù)上展現(xiàn)出了尤為突出的能力。
在HumanEval這一評估代碼質(zhì)量的任務(wù)中,其正確率達到了70.1%,比Grok-1高出約7個百分點,比Mixtral Instruct高出約8個百分點,并超越了所有被評估的LLaMA2-70B變體。
在GSM8k數(shù)學問題解決測試中,DBRX Instruct同樣取得了最優(yōu)成績66.9%,超過了Grok-1、Mixtral Instruct以及其他LLaMA2-70B變體。
值得注意的是,盡管Grok-1的參數(shù)數(shù)量是DBRX Instruct的2.4倍,但在上述編程和數(shù)學任務(wù)上,DBRX Instruct仍能保持領(lǐng)先地位。
甚至在針對編程任務(wù)專門設(shè)計的CodeLLaMA-70B Instruct模型之上,DBRX Instruct在HumanEval上的表現(xiàn)依然出色。
③DBRX Instruct在多語言理解能力方面也表現(xiàn)出色。
在大規(guī)模多任務(wù)語言理解數(shù)據(jù)集(MMLU)上,DBRX Instruct繼續(xù)展示出頂級性能,得分高達73.7%,超過了本次比較的所有其他模型。
綜上所述,DBRX的“微調(diào)版”Instruct在多個基準測試中均表現(xiàn)出色,尤其在編程、數(shù)學和多語言理解方面展現(xiàn)出了卓越的能力。
Databricks再次攪局,力爭市場破局
Databricks,源于加州大學伯克利分校的AMPLab項目,專注于研發(fā)基于Scala的開源分布式計算框架Apache Spark,并首創(chuàng)了“湖倉一體”(data Lakehouse)的概念。
2023年3月,該公司緊跟ChatGPT熱潮,推出了開源語言模型dolly,并在后續(xù)2.0版本中提出了“首個真正開放和商業(yè)可行的指令調(diào)優(yōu)LLM(大模型)”的口號,這標志著Databricks的“第二次行業(yè)革新”。
值得一提的是,Jonathan Frankle,曾是生成式AI初創(chuàng)公司MosaicML的首席科學家。
而Databricks在2023年6月以14億美元成功收購了MosaicML,這一舉措促使Frankle辭去了哈佛大學教授的職務(wù),全身心投入到DBRX的研發(fā)中。
就在前些日子,馬斯克宣布了史上最大的開源模型Grok-1的誕生,這一事件無疑引起了業(yè)界的廣泛關(guān)注。
Databricks之所以能在競爭中脫穎而出,其關(guān)鍵在于公司的技術(shù)整合能力和專有數(shù)據(jù)。
這兩項核心優(yōu)勢將繼續(xù)推動新的、更優(yōu)秀的模型變體的誕生。
DBRX團隊擁有16名專家,并從中選擇了4名進行模型開發(fā),而Mixtral和Grok-1團隊各有8名專家,選擇了2名。
這種選擇為DBRX提供了超過65倍的專家組合可能性,從而顯著提高了模型質(zhì)量。
DBRX在模型開發(fā)中采用了旋轉(zhuǎn)位置編碼(RoPE)、門控線性單元(GLU)和分組查詢注意力(GQA)等技術(shù),并使用了tiktoken存儲庫中提供的GPT-4令牌化器(tokenizer)。
這些決策都是團隊經(jīng)過深入評估和縮放實驗后作出的明智選擇。
透露下一步有關(guān)開源模型的計劃
①即將推出RAG工具,這一模式對于其發(fā)展具有重大意義。同時,Databricks中已經(jīng)內(nèi)置了簡潔高效的RAG方法。
接下來,將致力于將DBRX模型打造成為RAG的最佳生成器模型,為用戶提供更為強大的支持。
②DBRX模型將在所有主流云環(huán)境產(chǎn)品,包括AWS、谷歌云(GCP)和Azure等平臺上進行托管。
作為一款開源模型,鼓勵用戶根據(jù)自身需求自由地使用它,以推動業(yè)務(wù)的發(fā)展和創(chuàng)新。
③DBRX模型預計將通過Nvidia API Catalog進行提供,并在Nvidia NIM推理微服務(wù)上獲得支持。
這將為用戶帶來更加穩(wěn)定和高效的推理體驗,進一步推動業(yè)務(wù)的增長和拓展。
讓大模型廠商看到了變現(xiàn)的路徑
Databricks專注于協(xié)助企業(yè)構(gòu)建、訓練和擴展符合其特定需求的模型,此舉具有深遠意義。
這支獨角獸團隊高度重視企業(yè)的采納情況,因為這直接關(guān)系到他們的商業(yè)模式。
作為LLM發(fā)布計劃的一部分,Databricks以開放許可證的形式推出了兩個模型:DBRX Base和DBRX Instruct。
DBRX Base是一個預訓練的基礎(chǔ)模型,而DBRX Instruct則是針對少量交互的微調(diào)版本。
值得一提的是,DBRX得到了Azure數(shù)據(jù)庫在AWS、Google Cloud和Microsoft Azure上的支持,這意味著企業(yè)可以輕松地下載模型并在任何他們選擇的圖形處理器(GPU)上運行。
此外,企業(yè)還可以選擇訂閱DBRX和其他工具,如檢索增強生成(RAG),通過Databricks的Mosaic AI Model服務(wù)產(chǎn)品定制LLM。
Mosaic AI Model服務(wù)通過Foundation Model APIs與DBRX相連,使企業(yè)能夠從服務(wù)端點訪問和查詢LLMs。這一功能為企業(yè)提供了更強大的定制能力和靈活性。
Foundation Model APIs提供兩種定價模式:按Tokens付費和分配的吞吐量。
按Tokens付費的定價是基于并發(fā)請求,而吞吐量則是按每小時每個GPU實例計費。
兩種費率,包括云實例成本,均從每個Databricks單位$0.070開始。
同時,Databricks還為不同的GPU配置提供了相應(yīng)的定價區(qū)間,以滿足企業(yè)在不同場景下的計算需求。
通過穩(wěn)健的商業(yè)模式和開源大模型的結(jié)合,這也為企業(yè)提供了進入AIGC領(lǐng)域的門票。
通過使用我們的平臺,企業(yè)不僅可以降低使用自身企業(yè)數(shù)據(jù)開發(fā)生成性AI用例的成本,而且不會受到封閉模型提供商(如OpenAI)對商業(yè)用途的限制。
結(jié)尾:
隨著2024年AI大模型的迅猛進步,創(chuàng)新與突破呈現(xiàn)出指數(shù)級增長。
例如,OpenAI Sora、stable diffusion3、stable diffusion3 Tubro、Grok-1和Claude 3等模型相繼發(fā)布并開放使用。
隨著LLM社區(qū)的逐漸成熟,我們有理由相信,在不久的將來,每個企業(yè)都將有能力在新興的生成式AI領(lǐng)域構(gòu)建專有的私有LLM模型,并充分發(fā)掘和利用企業(yè)私有數(shù)據(jù)的價值。
部分資料參考:機器之心:《開源大模型王座再易主,1320億參數(shù)DBRX上線》,新智元:《全球最強開源模型一夜易主,1320億參數(shù)推理飆升2倍》,CSDN:《Databricks 開源 1320 億參數(shù)大模型強勢攪局,Grok 和 LLaMA 悉數(shù)落敗》,編程奇點:《馬斯克剛開源10天的Grok遭吊打,1320億參數(shù)DBRX上線》,開源AI項目落地:《DBRX:全球最強開源大模型易主》
原文標題 : AI芯天下丨熱點丨DBRX達1320億參數(shù),最強開源模型易主
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月28日立即報名>>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市