阿里云HPN7.0論文成果入選全球頂會(huì)SIGCOMM,爭(zhēng)奪下一代AI網(wǎng)絡(luò)架構(gòu)標(biāo)準(zhǔn)

2024-05-14 13:59:37來源:威易網(wǎng)作者:

\

5月14日消息,阿里云AI高性能網(wǎng)絡(luò)架構(gòu)HPN 7.0成果論文被SIGCOMM2024收錄,成為SIGCOMM歷史上首篇關(guān)于AI智算集群網(wǎng)絡(luò)架構(gòu)的論文。SIGCOMM是全球最權(quán)威的計(jì)算機(jī)通信網(wǎng)絡(luò)頂會(huì),此前谷歌Jupiter網(wǎng)絡(luò)入選SIGCOMM后發(fā)展成為經(jīng)典架構(gòu),有專家指出,阿里云HPN7.0有望成為下一代AI高性能網(wǎng)絡(luò)架構(gòu)的新范式。據(jù)悉,今年阿里云共有6篇論文被SIGCOMM收錄。

大模型對(duì)AI基礎(chǔ)設(shè)施提出了更高要求,阿里云新一代HPN7.0架構(gòu),為AI時(shí)代超大規(guī)模、超高穩(wěn)定性的網(wǎng)絡(luò)需求而研發(fā)。HPN 7.0創(chuàng)新性地設(shè)計(jì)了“雙上聯(lián)+多軌+雙平面”的網(wǎng)絡(luò)架構(gòu),并自研Solar-RDMA和ACCL通信庫(kù),可實(shí)現(xiàn)網(wǎng)絡(luò)的高性能和高穩(wěn)定互聯(lián)。

\

(HPN7.0架構(gòu):為AI設(shè)計(jì)的高性能網(wǎng)絡(luò)集群) 

從2023年9 月開始,HPN7.0在阿里云展開大規(guī)模部署,大模型訓(xùn)練性能較上一代架構(gòu)在典型場(chǎng)景下提升14.9%,且大幅提高了智算網(wǎng)絡(luò)整體穩(wěn)定性。前不久阿里云發(fā)布通義千問2.5版本大模型,中文性能全面趕超GPT-4Turbo,就是基于HPN7.0高性能網(wǎng)絡(luò)集群訓(xùn)練而成。

阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)負(fù)責(zé)人蔡德忠介紹稱:“阿里云從2017年開始探索端網(wǎng)融合的可預(yù)期網(wǎng)絡(luò),HPN7.0更進(jìn)一步,把端網(wǎng)融合的體系結(jié)構(gòu)從網(wǎng)絡(luò)協(xié)議棧拓展到網(wǎng)絡(luò)架構(gòu)和通信庫(kù),實(shí)現(xiàn)了面向AI智算時(shí)代的全新網(wǎng)絡(luò)集群架構(gòu)創(chuàng)新。” 

據(jù)悉,始于1977年的SIGCOMM是計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域最頂級(jí)的國(guó)際學(xué)術(shù)會(huì)議,每年錄取率在10%~20%之間,入選成果極有可能成為主流技術(shù)范式標(biāo)準(zhǔn)。此前,谷歌傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)Jupiter論文SIGCOMM收錄,成為經(jīng)典架構(gòu);此次阿里云HPN7.0架構(gòu)斬獲SIGCOMM首篇AI高性能網(wǎng)絡(luò)論文,則是中國(guó)公司首次為全球AI網(wǎng)絡(luò)基礎(chǔ)設(shè)施的設(shè)計(jì)及實(shí)踐提供了全新高性能標(biāo)準(zhǔn)。 

阿里云在高性能網(wǎng)絡(luò)領(lǐng)域已深耕多年,提出了端網(wǎng)融合的可預(yù)期網(wǎng)絡(luò)技術(shù)體系,并在業(yè)界率先完成RDMA低延時(shí)網(wǎng)絡(luò)、智算集群網(wǎng)絡(luò)架構(gòu)HPN 7.0等先進(jìn)技術(shù)的大規(guī)模實(shí)踐。阿里巴巴還曾獲評(píng)AMiner全球十大網(wǎng)絡(luò)研究機(jī)構(gòu),是榜單中唯一的中國(guó)科技企業(yè)。

關(guān)鍵詞:阿里云SIGCOMMAI