欧美日韩国产一中文字不卡,91综合在线

2021年度AI服務(wù)器的巔峰對決

2021-12-09 18:22

時(shí)至12月，又到了盤點(diǎn)、總結(jié)的時(shí)候了。遙記當(dāng)年DIY最火的時(shí)代，年底都要做的是硬件產(chǎn)品橫評與盤點(diǎn)等重要選題，從消費(fèi)者到廠商都能通過對比來了解產(chǎn)品的性能與市場表現(xiàn)，從而為選擇、研發(fā)下一代產(chǎn)品積累經(jīng)驗(yàn)。

我們再來看看企業(yè)級市場，近20年來它的變化速度飛快，從x86服務(wù)器興起開始，多核算力、云計(jì)算、大數(shù)據(jù)、人工智能、容器等等技術(shù)實(shí)現(xiàn)了一次又一次的突破，也為數(shù)字化的未來寫下了一頁頁濃墨重彩的傳奇。

企業(yè)級市場發(fā)展至今，可以看到無論是技術(shù)還是產(chǎn)品，整體趨勢都無一例外地朝向應(yīng)用。CPU、GPU、DPU、存儲(chǔ)都不再是單一的衡量標(biāo)準(zhǔn)，企業(yè)級用戶關(guān)注的應(yīng)用，或者說是能夠在什么樣的成本下，提供為我所需的性能，這才是最重要的一點(diǎn)。

2021 MLPerf?人工智能測試收官之作

正是因?yàn)槿绱�，MLPerf?測試才應(yīng)運(yùn)而生地成為了新一代標(biāo)桿，它所衡量的是服務(wù)器在人工智能相關(guān)領(lǐng)域應(yīng)用的性能表現(xiàn)，極具實(shí)戰(zhàn)價(jià)值，因此也備受業(yè)界關(guān)注。

MLPerf?是影響力最廣的國際AI性能基準(zhǔn)評測，由圖靈獎(jiǎng)得主大衛(wèi)?帕特森（David Patterson）聯(lián)合頂尖學(xué)術(shù)機(jī)構(gòu)發(fā)起成立。2020年，非盈利性機(jī)器學(xué)習(xí)開放組織MLCommons基于MLPerf?基準(zhǔn)測試成立，其成員包括谷歌、Facebook、英偉達(dá)、英特爾、浪潮、哈佛大學(xué)、斯坦福大學(xué)、加州大學(xué)伯克利分校等50余家全球AI領(lǐng)軍企業(yè)及頂尖學(xué)術(shù)機(jī)構(gòu)，致力于推進(jìn)機(jī)器學(xué)習(xí)和人工智能標(biāo)準(zhǔn)及衡量指標(biāo)。

目前，MLCommons每年組織2次MLPerf? AI訓(xùn)練性能測試和2次MLPerf? AI推理性能測試，為用戶衡量設(shè)備性能提供權(quán)威有效的數(shù)據(jù)指導(dǎo)。

MLPerf?基準(zhǔn)測試分為固定任務(wù)（Closed Model Division）和開放任務(wù)（Open Model Division）兩個(gè)分區(qū)。

固定任務(wù)是通過相同的模型、優(yōu)化器及參數(shù)值測試深度學(xué)習(xí)在不同服務(wù)器上的性能表現(xiàn)，類似于我們?nèi)粘？吹降挠布悓Ρ仍u測。而開放任務(wù)則對深度學(xué)習(xí)模型及精度不做過多約束，重點(diǎn)考察服務(wù)器廠商對深度學(xué)習(xí)模型及算法的優(yōu)化能力，推進(jìn)ML模型和優(yōu)化的創(chuàng)新。

固定任務(wù)（Closed）強(qiáng)調(diào)AI計(jì)算系統(tǒng)的公平比較，競賽衡量的是同一深度學(xué)習(xí)模型在不同硬件上的性能，重點(diǎn)考察參測廠商硬件系統(tǒng)和軟件優(yōu)化的能力。

既然MLPerf?每年組織4次AI相關(guān)測試，那么年底這次當(dāng)然就屬重頭戲了，業(yè)界對此的關(guān)注度也非常之高。12月1日，MLPerf?公布了最新一期訓(xùn)練（Training）榜單V1．1，此次共有谷歌、微軟云、英偉達(dá)、浪潮信息、百度、戴爾等14家公司及科研機(jī)構(gòu)，參與MLPerf?基準(zhǔn)測試，全部都是國際大廠，可謂華山論劍。共提交180項(xiàng)固定任務(wù)（Closed）成績，6項(xiàng)開放任務(wù)（Open）成績。

在單機(jī)測試的8項(xiàng)任務(wù)中，浪潮信息獲7項(xiàng)冠軍，英偉達(dá)獲1項(xiàng)冠軍；在集群測試的8項(xiàng)任務(wù)中，英偉達(dá)獲7項(xiàng)冠軍，微軟云獲1項(xiàng)冠軍。

實(shí)戰(zhàn)應(yīng)用場景，用計(jì)算力推動(dòng)深度學(xué)習(xí)

正如前文所述，本次MLPerf?基準(zhǔn)評測涵蓋了8類極具代表性的機(jī)器學(xué)習(xí)任務(wù)，分別是圖像分類（ResNet）、醫(yī)學(xué)影像分割（U－Net3D）、目標(biāo)物體檢測（SSD）、目標(biāo)物體檢測（Mask R－CNN）、語音識(shí)別（RNN－T）、自然語言理解（BERT）、智能推薦（DLRM）以及強(qiáng)化學(xué)習(xí)（MiniGo）。

為什么MLPerf?的AI性能測試受關(guān)注度如此高？

還不是因?yàn)樗钯N近用戶使用場景嘛！這一點(diǎn)尤為重要。

這就如同我們挑選智能手機(jī)，市場中的機(jī)型幾百、上千款，它們的設(shè)計(jì)、定位本身就有著很大不同。白領(lǐng)注重品質(zhì)和可靠性、游戲玩家關(guān)注性能、年輕人喜歡拍照、學(xué)生更關(guān)注性價(jià)比，根據(jù)自己的使用場景進(jìn)行選擇，這樣才能做到定位精準(zhǔn)。MLPerf?的應(yīng)用場景式評測，也是意在于此。

場景一：圖像分類（ResNet）

ResNet是非常經(jīng)典的深度學(xué)習(xí)模型，它也被稱為最典型的計(jì)算機(jī)視覺應(yīng)用。將海量圖片識(shí)別后標(biāo)記，然后進(jìn)行分類，這種應(yīng)用場景非常便捷與高效，ResNet考察的就是服務(wù)器在這項(xiàng)模型訓(xùn)練中的表現(xiàn)。

實(shí)戰(zhàn)應(yīng)用場景，2021年度AI服務(wù)器的巔峰對決

圖像分類（ResNet）任務(wù)單機(jī)訓(xùn)練成績排名

從上圖可以看到，浪潮信息的兩款經(jīng)典服務(wù)器拿下了前兩名位置，NF5488A5性能最高，NF5688M6排名第二。Supermicro的8卡A100－SXM4－80GB（500W）機(jī)型性能較NF5488A5低1．6％，排名第三。

看到這里可能有人會(huì)產(chǎn)生疑問，為什么只有浪潮和超微用500W的GPU？對于其他廠商而言是不是有些不公平？

其實(shí)，這恰恰證明了它們強(qiáng)大的研發(fā)實(shí)力。因?yàn)槔顺笔堑谝粋€(gè)在服務(wù)器中實(shí)現(xiàn)8塊500W功耗GPU部署的廠商，并提供液冷與風(fēng)冷兩種機(jī)型，同期其他品牌的產(chǎn)品大都僅做到了部署4塊500W GPU。本次測試，超微是第二家以8塊500W GPU服務(wù)器參賽的廠商。

GPU從300W到400W再發(fā)展至500W，多張卡同時(shí)部署的時(shí)候，對服務(wù)器內(nèi)有限的空間提出了更高散熱需求，因此供電與散熱方面設(shè)計(jì)難度非常高。也正是因?yàn)槿绱�，在評測中，才能夠觀察出各家企業(yè)、機(jī)構(gòu)參賽產(chǎn)品的設(shè)計(jì)、研發(fā)能力。

場景二：醫(yī)學(xué)影像分割（U－Net3D）

患者到醫(yī)院拍了醫(yī)學(xué)影像，包括X光、超聲、CT和MRI等，AI可以在很短時(shí)間內(nèi)對分割后的影像進(jìn)行分析，給出合理的初步診斷、分析及預(yù)測，為診斷提供便利。

醫(yī)學(xué)影像分割是醫(yī)學(xué)影像智能分析中的重要領(lǐng)域，也是計(jì)算機(jī)輔助診斷、監(jiān)視、干預(yù)和治療所必需的一環(huán)，其關(guān)鍵任務(wù)是對醫(yī)學(xué)影像中器官或病變進(jìn)行分割，為疾病的精準(zhǔn)識(shí)別、詳細(xì)分析、合理診斷、預(yù)測與預(yù)防等方面提供非常重要的意義和價(jià)值。

該項(xiàng)測試主要還是面向數(shù)據(jù)訓(xùn)練，考驗(yàn)服務(wù)器的硬實(shí)力。

實(shí)戰(zhàn)應(yīng)用場景，2021年度AI服務(wù)器的巔峰對決

醫(yī)學(xué)影像分割（U－Net3D）任務(wù)單機(jī)訓(xùn)練成績排名

三維醫(yī)學(xué)圖像分割任務(wù)3D U－Net模型的整機(jī)性能對比。浪潮信息此次僅提交了NF5688M6的結(jié)果，可以看到其性能領(lǐng)先第二名GIGABYTE約4．7％。領(lǐng)先第三名Supermicro約7．7％。相對而言該項(xiàng)測試計(jì)算任務(wù)比較繁重，因此各款產(chǎn)品也拉開了較明顯的差距。

場景三：語音識(shí)別（RNN－T）

在一場規(guī)模龐大的線上會(huì)議中，演講者所說的內(nèi)容全部實(shí)時(shí)顯示在屏幕上，既清晰又精準(zhǔn)�，F(xiàn)在，這樣的場景已經(jīng)無需人力，僅僅通過AI就能實(shí)現(xiàn)了。它的背后，就是語音識(shí)別的功勞。

RNN－T模型巧妙的將語言模型聲學(xué)模型整合在一起，同時(shí)進(jìn)行聯(lián)合優(yōu)化，是一種理論上相對完美的模型結(jié)構(gòu)。它通過聯(lián)合網(wǎng)絡(luò)將語言模型和聲學(xué)模型的狀態(tài)通過某種思路結(jié)合在一起，可以是拼接操作，也可以是直接相加等，因此也更加精準(zhǔn)。

實(shí)戰(zhàn)應(yīng)用場景，2021年度AI服務(wù)器的巔峰對決

語音識(shí)別（RNN－T）任務(wù)單機(jī)訓(xùn)練成績排名

語音識(shí)別RNNT任務(wù)訓(xùn)練的整機(jī)性能對比�？梢钥吹絅F5488A5性能第一，領(lǐng)先第二名NVIDIA約2．6％，領(lǐng)先第三名Microsoft約12．5％。這項(xiàng)測試可以說兼顧了深度學(xué)習(xí)的多種模型整合，復(fù)雜程度較高，浪潮NF5488A5憑借硬實(shí)力也創(chuàng)造了新的紀(jì)錄。

上述這三種場景測試僅僅是冰山一角，在MLPerf?基準(zhǔn)測試中共涵蓋了8項(xiàng)最貼近應(yīng)用場景的機(jī)器學(xué)習(xí)相關(guān)任務(wù)，這也是其被譽(yù)為極具實(shí)戰(zhàn)價(jià)值的關(guān)鍵所在。

浪潮AI服務(wù)器，2021收獲滿滿

作為業(yè)內(nèi)最權(quán)威的AI基準(zhǔn)測試，MLPerf?每年組織AI推理及AI訓(xùn)練性能測試各2次。12月1日結(jié)果的公布，這也意味著MLPerf? 2021年度4次測試正式收官。本年度共29家國際廠商、研究機(jī)構(gòu)參與其中，在數(shù)據(jù)中心推理、邊緣推理、集群訓(xùn)練和單機(jī)訓(xùn)練各類AI場景下，不斷突破AI系統(tǒng)性能。其中，浪潮信息共斬獲44項(xiàng)冠軍，名列MLPerf? 2021年度冠軍榜首，英偉達(dá)、戴爾、高通分列第二、第三、第四。

實(shí)戰(zhàn)應(yīng)用場景，2021年度AI服務(wù)器的巔峰對決

仔細(xì)觀察不難發(fā)現(xiàn)，參賽的廠商與機(jī)構(gòu)所選擇的硬件基本類似，想獲得更高的性能，只能靠系統(tǒng)設(shè)計(jì)與優(yōu)化能力，這里并無捷徑而言。浪潮信息在AI服務(wù)器設(shè)計(jì)與優(yōu)化方面深耕多年，因此才具備如此強(qiáng)勁的硬實(shí)力。

在硬件設(shè)計(jì)方面，針對AI任務(wù)中常見的密集IO傳輸瓶頸，浪潮AI服務(wù)器以領(lǐng)先設(shè)計(jì)大幅降低通信延遲，極大提升了AI訓(xùn)練效率。同時(shí)，針對高負(fù)載多GPU協(xié)同任務(wù)調(diào)度，對NUMA節(jié)點(diǎn)與GPU之間的數(shù)據(jù)傳輸進(jìn)行全面優(yōu)化和深度調(diào)校，確保訓(xùn)練任務(wù)中的數(shù)據(jù)IO無阻塞。此外，在散熱層面，A100－SXM－80GB（500W） GPU這款產(chǎn)品功耗非常高，為此浪潮開發(fā)了先進(jìn)冷板液冷系統(tǒng)，確保GPU在全功率負(fù)載下依然穩(wěn)定工作，也是讓AI服務(wù)器在各種測試中表現(xiàn)出色的重要原因之一。

對于浪潮AI服務(wù)器產(chǎn)品而言，兩款主力機(jī)型NF5488A5和NF5688M6在本年度MLPerf?測試中分別斬獲18和15項(xiàng)冠軍，它們的成功并非一蹴而就，而是眾多研發(fā)設(shè)計(jì)人員共同努力之下，再輔以多年來的技術(shù)積累，所結(jié)出的成果當(dāng)然極具實(shí)力。

MLPerf?的評測，可以說在整個(gè)2021年度為IT行業(yè)點(diǎn)燃了一盞明燈，指引大家將關(guān)注重點(diǎn)放在AI實(shí)戰(zhàn)上，而并非硬件指標(biāo)。此次V1．1榜單也可看作是AI服務(wù)器的盤點(diǎn)與總結(jié)，極具參考和實(shí)戰(zhàn)價(jià)值。從MLPerf?測試本身來看，很多優(yōu)秀的硬件產(chǎn)品在不同階段測試中表現(xiàn)出了強(qiáng)勁的實(shí)力，并在各種優(yōu)化之后一次又一次地實(shí)現(xiàn)“刷榜”，這也是行業(yè)用戶最想看到的一點(diǎn)。在測試中不斷強(qiáng)大的AI服務(wù)器能夠幫助用戶更高效地完成訓(xùn)練，并且可以嘗試以前無法企及的任務(wù)，為AI在不同領(lǐng)域的快速發(fā)展注入新活力。

浪潮AI服務(wù)器在中國市場份額已連續(xù)五年穩(wěn)居第一，目前全球市場份額也是第一。浪潮信息在MLPerf?中能夠取得優(yōu)異的成績，再次證明了自身研發(fā)實(shí)力，并在實(shí)戰(zhàn)應(yīng)用場景方面有了更加深入的洞察和理解。此外，浪潮信息在MLPerf?測試中的探索和創(chuàng)新，也進(jìn)一步幫助浪潮能夠在實(shí)際應(yīng)用中更好地回饋行業(yè)客戶，助力其業(yè)務(wù)發(fā)展，并以此推動(dòng)AI快速前行。