开车越往下越疼的那种软件,年轻漂亮的邻居完整版中文字幕,日韩一区二区三区久久综合

GPU性能提升1000倍背后，英偉達(dá)掀翻行業(yè)的另一把“鐮刀”

2024-06-25 16:32

芯潮IC

關(guān)注

“芯”原創(chuàng)——NO.51

搶占AI腹地。

文 I 十巷

報(bào)道 I 芯潮 IC

ID I xinchaoIC

圖片來源 | Unsplash

前幾日，英偉達(dá)市值沖破3萬億美元，將蘋果公司甩在身后的故事還沒來得及回味。英偉達(dá)市值登頂全球第一的新聞再次登上各大熱搜（發(fā)稿前，英偉達(dá)市值已出現(xiàn)較大回落）。

作為AI芯片巨頭，英偉達(dá)近年來可謂風(fēng)光無限。

過去，我們看到了很多有關(guān)英偉達(dá)GPU和CUDA護(hù)城河的介紹。誠然，經(jīng)過多年的投入，他們已經(jīng)建立起了難以逾越的優(yōu)勢(shì)。但除此以外，英偉達(dá)還有很多隱形護(hù)城河，其中，互聯(lián)技術(shù)也是其在AI浪潮中取得成功過程中不可忽視的一大關(guān)鍵。

日前，黃仁勛在Computex的主題演講中，再次透露了未來幾年GPU和互連技術(shù)的路線圖；而另一邊，八大芯片巨頭抱團(tuán)取暖，成立UALink推廣組意在制定行業(yè)標(biāo)準(zhǔn)，以打破市場(chǎng)領(lǐng)導(dǎo)者英偉達(dá)的壁壘和壟斷。

如今大模型時(shí)代來臨，隨著越來越多的加速器被集成到一起，性能損耗和帶寬瓶頸逐漸顯現(xiàn)，如何高效傳輸數(shù)據(jù)成為了AI芯片互聯(lián)領(lǐng)域亟待攻克的瓶頸。

在此背景下，行業(yè)廠商加速入局，試圖搶占GPU互聯(lián)市場(chǎng)的新高地。

為什么需要GPU互聯(lián)技術(shù)？

長(zhǎng)期以來，馮·諾依曼架構(gòu)面臨的一個(gè)核心挑戰(zhàn)是CPU的計(jì)算速度與內(nèi)存訪問速度之間的不匹配，尤其是與存儲(chǔ)設(shè)備的速度相比更是天壤之別。這就是業(yè)界著名的“內(nèi)存墻”，其不均衡的發(fā)展速度對(duì)日益增長(zhǎng)的高性能計(jì)算形成了極大制約，成為訓(xùn)練大規(guī)模AI模型的瓶頸。

與此同時(shí)，隨著高性能存儲(chǔ)技術(shù)的進(jìn)步，計(jì)算機(jī)組件間通信的帶寬再次成為限制性能提升的關(guān)鍵因素。從“Pascal”P100 GPU一代到“Blackwell”B100 GPU一代，八年間GPU的性能提升了1053倍。

在此趨勢(shì)下，GPU作為AI時(shí)代的核心處理器，單卡GPU算力和顯存有限，無法滿足訓(xùn)練需求。為適應(yīng)算力需求，需要聯(lián)合大量GPU甚至多臺(tái)服務(wù)器協(xié)同工作，分布式訓(xùn)練訴求快速提升。

GPU服務(wù)結(jié)構(gòu)

在分布式系統(tǒng)中，大模型訓(xùn)練對(duì)算力基礎(chǔ)設(shè)施的要求從單卡拓展到了集群層面，這對(duì)大規(guī)�？ㄩg互聯(lián)的兼容性、傳輸效率、時(shí)延等指標(biāo)提出了更高的要求。

自此，GPU互連技術(shù)開始擔(dān)任重要角色。

GPU互聯(lián)技術(shù)，百家爭(zhēng)鳴

眾所周知，總線是數(shù)據(jù)通信必備管道，是服務(wù)器主板上不同硬件互相進(jìn)行數(shù)據(jù)通信的管道，對(duì)數(shù)據(jù)傳輸速度起到?jīng)Q定性作用。

目前最普及的總線協(xié)議為英特爾2001年提出的PCIe（PCI-Express）協(xié)議，PCIe主要用于連接CPU與其他高速設(shè)備如GPU、SSD、網(wǎng)卡、顯卡等。2003年P(guān)CIe1.0版本發(fā)布，后續(xù)大致每過三年會(huì)更新一代，目前已經(jīng)更新到6.0版本，傳輸速率高達(dá)64GT/s，16通道的帶寬達(dá)到256GB/s，性能和可擴(kuò)展性不斷提高。

AIGC的發(fā)展極大刺激算力需求的增加，GPU多卡組合成為趨勢(shì)。GPU互聯(lián)的帶寬通常需要在數(shù)百GB/S以上，PCIe的數(shù)據(jù)傳輸速率成為瓶頸，且PCIe鏈路接口的串并轉(zhuǎn)換會(huì)產(chǎn)生較大延時(shí)，影響GPU并行計(jì)算的效率和性能。

同時(shí)，由于PCIe總線樹形拓?fù)浜投说蕉藗鬏敺绞较拗屏诉B接數(shù)量和速度，GPU發(fā)出的信號(hào)需要先傳遞到PCIe Switch來拓展，PCIe Switch涉及到數(shù)據(jù)的處理又會(huì)造成額外的網(wǎng)絡(luò)延時(shí)，此外PCIe總線與存儲(chǔ)器地址分離，每次訪問內(nèi)存會(huì)加重網(wǎng)絡(luò)延遲。

因此，PCIe的傳輸速率和網(wǎng)絡(luò)延遲無法滿足需求，限制了系統(tǒng)性能。

在市場(chǎng)需求和技術(shù)驅(qū)動(dòng)下，GPUDirect/NVLink/Infinity Fabric/高速以太網(wǎng)/InfiniBand等GPU互聯(lián)技術(shù)爭(zhēng)相推出，“百家爭(zhēng)鳴”時(shí)代開啟。

GPUDirect

在這個(gè)過程中，英偉達(dá)率先推出了能夠提升GPU通信性能的技術(shù)——GPUDirect，使GPU可以通過PCIe直接訪問目標(biāo)GPU的顯存，可實(shí)現(xiàn)GPU與其他設(shè)備之間直接通信和數(shù)據(jù)傳輸?shù)募夹g(shù)，大大降低了數(shù)據(jù)交換的延遲。

傳統(tǒng)上，當(dāng)數(shù)據(jù)需要在GPU和另一個(gè)設(shè)備之間傳輸時(shí)，數(shù)據(jù)必須通過CPU，從而導(dǎo)致潛在的瓶頸并增加延遲。使用GPUDirect，網(wǎng)絡(luò)適配器和存儲(chǔ)驅(qū)動(dòng)器可以直接讀寫GPU內(nèi)存，減少不必要的內(nèi)存消耗，減少CPU開銷并降低延遲，從而顯著提高性能。GPUDirect技術(shù)包括GPUDirect Storage、GPUDirect RDMA、GPUDirect P2P和GPUDirect 視頻。

但受限于PCIe總線協(xié)議以及拓?fù)浣Y(jié)構(gòu)的一些限制，無法做到更高的帶寬。此后，英偉達(dá)提出了NVLink總線協(xié)議。

NVLink成為主流

過去，我們看到了很多有關(guān)英偉達(dá)GPU和CUDA護(hù)城河的介紹。誠然，經(jīng)過多年的投入，他們已經(jīng)建立起了難以逾越的優(yōu)勢(shì)。但除此以外，英偉達(dá)還有很多隱形護(hù)城河，NVLink就是其中之一，一個(gè)為GPU到GPU互聯(lián)提供高速連接的技術(shù)。

NVLink是一種英偉達(dá)提出的高速GPU互聯(lián)協(xié)議，用于連接多個(gè)GPU之間或連接GPU與其他設(shè)備（如CPU、內(nèi)存等）之間的通信。它允許GPU之間以點(diǎn)對(duì)點(diǎn)方式進(jìn)行通信，具有比傳統(tǒng)的 PCIe 總線更高的帶寬和更低的延遲，為多GPU系統(tǒng)提供更高的性能和效率。

對(duì)比傳統(tǒng)PCIe總線協(xié)議，NVLink主要在三個(gè)方面做出較大改變：

1）支持網(wǎng)狀拓?fù)淠�，解決通道有限問題；

2）統(tǒng)一內(nèi)存，允許GPU共享公共內(nèi)存池，減少GPU之間復(fù)制數(shù)據(jù)的需要，從而提高效率；

3）直接內(nèi)存訪問，不需要CPU參與，GPU可直接讀取彼此的內(nèi)存，從而降低網(wǎng)絡(luò)延遲。

英偉達(dá)官方表示，NVLink是全球首創(chuàng)的高速GPU互連技術(shù)。作為一種總線及其通信協(xié)議，NVLink采用點(diǎn)對(duì)點(diǎn)結(jié)構(gòu)、串列傳輸，用于連接GPU與支持NVLink技術(shù)的CPU，在內(nèi)存墻無法突破的情況下，最大化提升CPU和GPU之間通信的效率，也可用于多個(gè)英偉達(dá)GPU之間的高帶寬互連。使用NVLink連接兩張NVIDIA GPU，即可彈性調(diào)整記憶體與效能，滿足專業(yè)視覺運(yùn)算最高工作負(fù)載的需求。

自2014年開始，英偉達(dá)在其GPU中引入了NVLink互聯(lián)技術(shù)。

彼時(shí)，為帶寬不足而發(fā)愁的英偉達(dá)，與當(dāng)時(shí)坐擁更高帶寬POWER CPU的IBM一拍而合，合作開發(fā)了第一代NVLink。

回顧NVLink技術(shù)的發(fā)展歷程：

2014年，NVLink 1.0發(fā)布并在P100 GPU芯片之間實(shí)現(xiàn)，兩個(gè)GPU之間有四個(gè)NVLink，每個(gè)鏈路由八個(gè)通道組成，每個(gè)通道的速度為20Gb/s，系統(tǒng)整體雙向帶寬為160GB/s，是PCIe3 x16的五倍，這使得數(shù)據(jù)在CPU內(nèi)存與GPU顯存之間的移動(dòng)速度得到了大幅提升，從而讓GPU加速的應(yīng)用能夠大幅提升運(yùn)行速度。

伴隨著P100、V100等計(jì)算卡的推出，NVLink迎來了自己的高速發(fā)展。

2017年，英偉達(dá)推出了第二代NVLink，兩個(gè)V100 GPU芯片之間通過六個(gè)NVLink 2.0連接，每個(gè)鏈路也是由八個(gè)通道組成，每個(gè)通道的速度提升至25Gb/s，從而實(shí)現(xiàn)300GB/s的雙向系統(tǒng)帶寬，幾乎是NVLink1.0的兩倍。

同時(shí)，為了實(shí)現(xiàn)八個(gè)GPU之間的完全互連，解決GPU之間通訊不均衡問題，英偉達(dá)還引入了NVSwitch技術(shù)。

NVSwitch是英偉達(dá)在2018年發(fā)布的一項(xiàng)技術(shù)，旨在解決單服務(wù)器中多個(gè)GPU之間的全連接問題。NVSwitch允許單個(gè)服務(wù)器節(jié)點(diǎn)中多達(dá)16個(gè)GPU實(shí)現(xiàn)全互聯(lián)，這意味著每個(gè)GPU都可以與其他GPU直接通信，無需通過CPU或其他中介。

NVSwitch全連接拓?fù)洌▓D源：nextplatform）

NVSwitch1.0有18個(gè)端口，每個(gè)端口的帶寬為50GB/s，總帶寬為900GB/s。每個(gè)NVSwitch保留兩個(gè)用于連接CPU的端口。通過使用6個(gè)NVSwitch，可以在8個(gè)GPU V100芯片之間建立一個(gè)全連接的網(wǎng)絡(luò)。

2020年，推出NVLink 3.0技術(shù)。它通過12個(gè)NVLink連接連接兩個(gè)GPU A100芯片，每個(gè)鏈路由四個(gè)通道組成。每個(gè)通道以50Gb/s的速度運(yùn)行，從而產(chǎn)生600GB/s的雙向系統(tǒng)帶寬，是NVLink2.0的兩倍。隨著NVLink數(shù)量的增加，NVSwitch上的端口數(shù)量也增加到36個(gè)，每個(gè)端口的運(yùn)行速度為50GB/s。

2022年，NVLink技術(shù)升級(jí)到第四代，允許兩個(gè)GPU H100芯片通過18條NVLink鏈路互連。每個(gè)鏈路由2個(gè)通道組成，每個(gè)通道支持100Gb/s（PAM4）的速度，從而使雙向總帶寬增加到900GB/s。NVSwitch也升級(jí)到了第三代，每個(gè)NVSwitch支持64個(gè)端口，每個(gè)端口的運(yùn)行速度為 50GB/s。

值得一提的是，在第四代NVLink發(fā)布時(shí)，英偉達(dá)正式將其稱為NVLink-C2C ，此時(shí)NVLink已經(jīng)升級(jí)為板級(jí)互連技術(shù)，它能夠在單個(gè)封裝中將兩個(gè)處理器連接成一塊超級(jí)芯片。

第一代到第四代NVLink演進(jìn)脈絡(luò)（圖源：nextplatform）

2024年，隨著英偉達(dá)全新Blackwell架構(gòu)的發(fā)布，NVLink 5.0也隨之而來。

NVLink 5.0以100GB/s的速度在處理器之間移動(dòng)數(shù)據(jù)。每個(gè)GPU有18個(gè)NVLink連接，Blackwell GPU將為其他GPU或Hopper CPU提供每秒1.8TB的總帶寬，這是NVLink 4.0帶寬的兩倍，是行業(yè)標(biāo)準(zhǔn)PCIe Gen5總線帶寬的14倍。NVSwitch也升級(jí)到了第四代，每個(gè)NVSwitch支持144個(gè)NVLink 端口，無阻塞交換容量為14.4TB/s。

圖源：英偉達(dá)

從上圖可以看到，每一代NVLink的更新，其每個(gè)GPU的互聯(lián)帶寬都是在不斷的提升，其中NVLink之間能夠互聯(lián)的GPU數(shù)，也從第一代的4路到第四代/第五代的18路。每個(gè)NVLink鏈路的速度也由第一代的20Gb/s提升至目前的1800Gb/s。

此外，盡管擁有極高的帶寬，NVLink卻在每比特?cái)?shù)據(jù)的傳輸上比PCIe節(jié)能得多。

NVLink和NVSwitch這兩項(xiàng)技術(shù)的引入，為GPU集群和深度學(xué)習(xí)系統(tǒng)等應(yīng)用場(chǎng)景帶來了更高的通信帶寬和更低的延遲，從而提升了系統(tǒng)的整體性能和效率。

隨著下一代AI算法等先進(jìn)計(jì)算的需求不斷增長(zhǎng)，可以期待NVLink的功能進(jìn)一步增強(qiáng)。無論是帶寬的增加還是促進(jìn)GPU之間更好合作的新功能，NVLink或其后繼者無疑仍將是滿足未來計(jì)算需求的核心。

可見，當(dāng)競(jìng)爭(zhēng)對(duì)手還在追趕英偉達(dá)GPU性能時(shí)，英偉達(dá)已經(jīng)在發(fā)力整個(gè)數(shù)據(jù)中心的構(gòu)架層創(chuàng)新，通過提供更快的芯片互聯(lián)，更強(qiáng)的算力調(diào)度能力，將GPU打包成綜合性能無人能敵的數(shù)據(jù)工廠，交付給全世界。

AMD加碼Infinity Fabric

AMD也推出了與英偉達(dá)NVLink相似的Infinity Fabric技術(shù)。

Infinity Fabric由兩部分組成：數(shù)據(jù)布線（Data Fabric）和控制布線（Control Fabric），數(shù)據(jù)布線用于處理器內(nèi)部和處理器之間的數(shù)據(jù)傳輸；控制布線則負(fù)責(zé)處理器的功耗、時(shí)鐘和安全性等方面的管理，該技術(shù)支持芯片間、芯片對(duì)芯片以及節(jié)點(diǎn)對(duì)節(jié)點(diǎn)的數(shù)據(jù)傳輸。

Infinity Fabric的主要特點(diǎn)包括：

高效率：Infinity Fabric設(shè)計(jì)用于提供高效率的數(shù)據(jù)傳輸，支持多個(gè)設(shè)備之間的高速通信；

模塊化：Infinity Fabric支持AMD的Chiplet架構(gòu)，允許不同功能的芯片模塊通過高速互連進(jìn)行組合；

內(nèi)存共享：Infinity Fabric支持CPU和GPU之間的內(nèi)存共享，有助于提高異構(gòu)計(jì)算效率；

擴(kuò)展性：Infinity Fabric的設(shè)計(jì)允許它隨著技術(shù)進(jìn)步和需求增長(zhǎng)而擴(kuò)展。

Infinity Fabric是AMD在其“Zen微架構(gòu)”中引入的一個(gè)關(guān)鍵特性，旨在提高整體系統(tǒng)性能，特別是在多核心處理器和數(shù)據(jù)中心環(huán)境中。

圖源：AMD

據(jù)悉，AMD最新的AI加速器Instinct MI300X平臺(tái)，就是通過第四代Infinity Fabric鏈路將8個(gè)完全連接的MI300X GPU OAM模塊集成到行業(yè)標(biāo)準(zhǔn)OCP設(shè)計(jì)中，為低延遲AI處理提供高達(dá)1.5TB HBM3容量。第四代Infinity Fabric支持每通道高達(dá)32Gbps，每鏈路產(chǎn)生128GB/s的雙向帶寬。

不同于英偉達(dá)NVLink僅限于內(nèi)部使用，AMD已經(jīng)開始向合作伙伴開放其Infinity Fabric生態(tài)系統(tǒng)，完善生態(tài)布局。

芯片巨頭組團(tuán)，向英偉達(dá)NVLink開戰(zhàn)

盡管GPU互聯(lián)技術(shù)看上去種類多樣，但主要技術(shù)路線還是牢牢掌握在英偉達(dá)手中，業(yè)界一直期待有某種“超級(jí)”競(jìng)爭(zhēng)對(duì)手聯(lián)盟來填補(bǔ)非Nvidia互聯(lián)技術(shù)或集群的空缺。

而這也正是UALink推出的重要原因，掀起對(duì)標(biāo)英偉達(dá)NVLink的波瀾。

文章開頭提到，AMD、博通、思科、Google、惠普、英特爾、Meta和微軟在內(nèi)的八家公司宣告，為人工智能數(shù)據(jù)中心的網(wǎng)絡(luò)制定了新的互聯(lián)技術(shù)UALink（Ultra Accelerator Link）。通過為AI加速器之間的通信建立一個(gè)開放標(biāo)準(zhǔn)，以挑戰(zhàn)英偉達(dá)在AI加速器一家獨(dú)大的地位。

據(jù)消息披露，UALink提議的第一個(gè)標(biāo)準(zhǔn)版本UALink 1.0，將連接多達(dá)1024個(gè)GPU AI加速器，組成一個(gè)計(jì)算“集群”，共同完成大規(guī)模計(jì)算任務(wù)。

根據(jù)UALink推廣組的說法，基于包括AMD的Infinity Fabric在內(nèi)的“開放標(biāo)準(zhǔn)”，UALink 1.0將允許AI加速器所附帶的內(nèi)存之間的直接加載和存儲(chǔ)，并且與現(xiàn)有互連規(guī)范相比，總體上將提高速度，同時(shí)降低數(shù)據(jù)傳輸延遲。

圖源：nextplatform

據(jù)悉，UALink將在第三季度成立一個(gè)UALink聯(lián)盟，定義AI計(jì)算艙中加速器和交換機(jī)之間擴(kuò)展通信的高速、低延遲互連，以監(jiān)督UALink規(guī)范未來的發(fā)展。UALink 1.0將在同期向加入聯(lián)盟的公司提供，而具有更高帶寬的更新規(guī)范UALink 1.1，計(jì)劃在2024年第四季度推出。這些規(guī)范將支持多種傳輸，包括PCI-Express和以太網(wǎng)。

UALink聯(lián)盟旨在創(chuàng)建一個(gè)開放的行業(yè)標(biāo)準(zhǔn)，允許多家公司為整個(gè)生態(tài)系統(tǒng)增加價(jià)值，從而避免技術(shù)壟斷。

該技術(shù)的潛在優(yōu)勢(shì)在于讓業(yè)內(nèi)所有人都有機(jī)會(huì)與英偉達(dá)保持同步，其不僅適用于大型企業(yè)，也為行業(yè)中每個(gè)人打開了一扇門，讓他們不僅在規(guī)模上，而且在創(chuàng)新方面都能跟上英偉達(dá)的步伐。

多機(jī)互聯(lián)：

InfiniBand與以太網(wǎng)絡(luò)并存

此外，在分布式系統(tǒng)中，根據(jù)連接層級(jí)的不同可以分為單卡、多卡、多機(jī)互聯(lián)，在大規(guī)模計(jì)算中，單機(jī)多卡場(chǎng)景下多使用GPU Diect、NVLink等高帶寬通信網(wǎng)絡(luò)技術(shù)，分布式場(chǎng)景下的多機(jī)之間的連接（即服務(wù)器互聯(lián)）通常采用RDMA網(wǎng)絡(luò)。

隨著大數(shù)據(jù)分析、AI計(jì)算等應(yīng)用對(duì)算力需求巨大，上面提到的單機(jī)形態(tài)已經(jīng)逐漸不能滿足用戶需求，多機(jī)多卡的計(jì)算成為常態(tài)，多機(jī)間的通信是影響分布式訓(xùn)練的一個(gè)重要指標(biāo)。

當(dāng)前業(yè)界常提到的多機(jī)之間GPU卡的通信技術(shù)，主要有RDMA、GPU Direct RDMA和InfiniBand等技術(shù)。

RDMA是一種繞過遠(yuǎn)程主機(jī)而直接訪問其內(nèi)存中數(shù)據(jù)的技術(shù)，解決網(wǎng)絡(luò)傳輸中數(shù)據(jù)處理延遲而產(chǎn)生的一種遠(yuǎn)端內(nèi)存直接訪問技術(shù)。

簡(jiǎn)單理解，RDMA就像一個(gè)去掉中間商的技術(shù)，讓數(shù)據(jù)能夠快速獲取。不再在操作系統(tǒng)、CPU等環(huán)節(jié)浪費(fèi)時(shí)間。

目前RDMA有三種不同的技術(shù)實(shí)現(xiàn)方式：Infiniband、RoCE、iWARP，后兩者是基于以太網(wǎng)的技術(shù)。

長(zhǎng)期以來，以太網(wǎng)一直是計(jì)算機(jī)網(wǎng)絡(luò)的主力，例如英特爾的Gaudi系列AI處理器在芯片上集成了幾十個(gè)100Gb以太網(wǎng)連接；相比之下，英偉達(dá)通過收購Mellanox獨(dú)占了高性能InfiniBand互連市場(chǎng)。

InfiniBand是一種開放標(biāo)準(zhǔn)的網(wǎng)絡(luò)互連技術(shù)，具有高帶寬、低延遲、高可靠性的特點(diǎn)，在英偉達(dá)的AI工廠和超級(jí)電腦中扮演著至關(guān)重要的角色。

InfiniBand在人工智能等數(shù)據(jù)密集型任務(wù)中通常優(yōu)于以太網(wǎng)。據(jù)Dell'Oro估計(jì)，約90%的AI部署都是使用的InfiniBand，而不是以太網(wǎng)。這些部署將英偉達(dá)的網(wǎng)絡(luò)收入推至每年100億美元。

英特爾，押注以太網(wǎng)

英特爾的Gaudi AI芯片則一直沿用傳統(tǒng)的以太網(wǎng)互聯(lián)技術(shù)。

據(jù)了解，Gaudi 2每個(gè)芯片使用了24個(gè)100Gb以太網(wǎng)鏈路；Gaudi 3將這些鏈路的帶寬增加了一倍，使用了24個(gè)200Gbps以太網(wǎng)RDMA NIC，使芯片的外部以太網(wǎng)I/O總帶寬達(dá)到8.4TB/秒。

前不久，英特爾還宣布正在開發(fā)一款用于超以太網(wǎng)聯(lián)盟（UEC）兼容網(wǎng)絡(luò)的AI NIC ASIC以及一款A(yù)I NIC小芯片，這些創(chuàng)新的AI高速互聯(lián)技術(shù)將用于其未來的XPU和Gaudi 3處理器。這些創(chuàng)新旨在革新可大規(guī)模縱向和橫向擴(kuò)展的AI高速互聯(lián)技術(shù)。

超以太網(wǎng)聯(lián)盟（UCE），是一個(gè)由英特爾、AMD、HPE、Arista、Broadcom、思科、Meta和微軟為打破英偉達(dá)壟斷而共同創(chuàng)建的組織。UCE認(rèn)為，通過調(diào)整以太網(wǎng)的架構(gòu)，可以讓以下一代高速太網(wǎng)的性能像InfiniBand網(wǎng)絡(luò)一樣好，并更具成本與開放性優(yōu)勢(shì)，從而讓更多的企業(yè)加入進(jìn)來。

一直以來，英特爾都希望通過采用純以太網(wǎng)交換機(jī)來贏得那些不想投資InfiniBand等專有互連技術(shù)的客戶。

雖然InfiniBand在很多情況下表現(xiàn)都不錯(cuò)，但它也有缺點(diǎn)，比如只能在特定范圍內(nèi)使用（例如InfiniBand適合那些運(yùn)行少量非常大的工作負(fù)載（例如GPT3或數(shù)字孿生）的用戶，但在更加動(dòng)態(tài)的超大規(guī)模和云環(huán)境中，以太網(wǎng)通常是首選），而且成本也不低，將整個(gè)網(wǎng)絡(luò)升級(jí)到InfiniBand需要大量投資。相比之下，以太網(wǎng)因?yàn)榧嫒菪詮?qiáng)，成本適中，以及能夠勝任大多數(shù)工作負(fù)載，所以在網(wǎng)絡(luò)技術(shù)領(lǐng)域里一直很受歡迎，建立了一個(gè)龐大的“以太網(wǎng)生態(tài)”。

AMD也表示將重點(diǎn)支持以太網(wǎng)，特別是超以太網(wǎng)聯(lián)盟。雖然Infinity Fabric提供了GPU之間的一致互連，但AMD正在推廣以太網(wǎng)作為其首選的GPU到GPU網(wǎng)絡(luò)。

綜合來說，高性能遠(yuǎn)距離傳輸?shù)膽?zhàn)場(chǎng)里，如今僅剩InfiniBand和下一代高速以太網(wǎng)兩大陣營(yíng)，雙方各有優(yōu)劣勢(shì)。

據(jù)Dell'Oro預(yù)計(jì)，在可預(yù)見的未來InfiniBand將保持在AI交換領(lǐng)域的領(lǐng)先地位，但在云和超大規(guī)模數(shù)據(jù)中心的推動(dòng)下，以太網(wǎng)將取得大幅增長(zhǎng)，預(yù)計(jì)到2027年將占據(jù)約20%的市場(chǎng)份額。

互聯(lián)技術(shù)未來創(chuàng)新趨勢(shì)

不可否認(rèn)，上述這些互聯(lián)技術(shù)都已是目前最好的選擇。但能夠預(yù)見到是，隨著未來計(jì)算數(shù)據(jù)的爆炸式增長(zhǎng)、神經(jīng)網(wǎng)絡(luò)復(fù)雜性不斷增加，以及AI技術(shù)的加速演進(jìn)，對(duì)更高帶寬的需求還在繼續(xù)增長(zhǎng)。

當(dāng)前這些互聯(lián)技術(shù)將不可避免的存在性能瓶頸。

例如英偉達(dá)的NVLink雖然速度快，但功耗也相當(dāng)高；AMD的Infinity Fabric適合于芯片內(nèi)部連接，對(duì)于芯片之間的互聯(lián)效率并不理想等。

對(duì)此，光互聯(lián)憑借高帶寬、低功耗等優(yōu)勢(shì)，幾乎成為未來AI互聯(lián)技術(shù)公認(rèn)的發(fā)展方向。

在光互聯(lián)之路上，谷歌、博通、Marvell、思科以及Celestial AI、Ayar Labs、Lightmatter、Coherent、曦智科技等新老廠商都在不斷發(fā)力，相繼取得了一系列成果。

在眾多廠商的參與下，互聯(lián)技術(shù)未來將會(huì)迎來快速發(fā)展。尤其是圍繞光電共封裝和硅光子中繼層技術(shù)的光互連，正在成為AI領(lǐng)域的熱門賽道。

結(jié)語

大模型時(shí)代，算力就是生產(chǎn)力。

大模型的背后意味著巨大的計(jì)算資源，模型大小和訓(xùn)練數(shù)據(jù)大小成為決定模型能力的關(guān)鍵因素。當(dāng)前，市場(chǎng)的主力玩家們利用數(shù)萬個(gè)GPU構(gòu)建大型人工智能集群，以訓(xùn)練LLM。

在此趨勢(shì)下，分布式通信技術(shù)正以前所未有的速度推動(dòng)著人工智能的進(jìn)步。

從PCIe到NVLink、Infinity Fabric再到InfiniBand、以太網(wǎng)和UALink，這些技術(shù)通過高帶寬、低延遲的數(shù)據(jù)傳輸，實(shí)現(xiàn)了GPU或AI服務(wù)器之間的高速互聯(lián)，在提升深度學(xué)習(xí)模型的訓(xùn)練效率和計(jì)算性能方面發(fā)揮了至關(guān)重要的作用。

在AI技術(shù)的飛速發(fā)展中，互聯(lián)技術(shù)作為AI時(shí)代的橋梁，也正在經(jīng)歷前所未有的創(chuàng)新與變革。