阿里云AI基礎設施升級亮相,模型算力利用率提升超20%

2024-09-20 11:55:02來源:威易網(wǎng)作者:

9月20日,2024云棲大會現(xiàn)場,阿里云全面展示了全新升級后的AI Infra系列產品及能力。通過全棧優(yōu)化,阿里云打造出一套穩(wěn)定和高效的AI基礎設施,連續(xù)訓練有效時長大于99%,模型算力利用率提升20%以上。

9月20日,2024云棲大會現(xiàn)場,阿里云全面展示了全新升級后的AI Infra系列產品及能力。通過全棧優(yōu)化,阿里云打造出一套穩(wěn)定和高效的AI基礎設施,連續(xù)訓練有效時長大于99%,模型算力利用率提升20%以上。

\ 

“AI創(chuàng)新需要新形態(tài)的云基礎設施。”阿里云副總裁、彈性計算及存儲產品線負責人吳結生表示,阿里云整合底層的計算、存儲、網(wǎng)絡等資源,實現(xiàn)了統(tǒng)一調度和軟硬一體優(yōu)化,以滿足模型訓練和推理的爆發(fā)式AI算力需求。

基于全新的CIPU2.0,阿里云新推出磐久AI服務器,實現(xiàn)單機16卡、顯存1.5T以上,支持Solar RDMA互聯(lián)。磐久AI服務器采用超鈦金電源實現(xiàn)97%以上的高能效,并可通過AI算法預測GPU故障,準確率達92%,保障 AI 算力的性能和穩(wěn)定性。 

在存儲方面,阿里云并行文件存儲CPFS實現(xiàn)端到端全鏈路性能提升,單客戶端吞吐達25GB/s,高性能數(shù)據(jù)流動達到100GB/s,為AI智算提供指數(shù)級擴展存儲能力。 

為AI設計的高性能網(wǎng)絡架構HPN7.0,性能和穩(wěn)定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端訓練性能提升10%以上。

通過底層計算、存儲、網(wǎng)絡等基礎設施的升級,阿里云靈駿集群可提供超大規(guī)模、超強性能的智能算力,萬卡規(guī)模性能線性度超過96%,并行存儲吞吐20TB/s,萬卡規(guī)模下網(wǎng)絡帶寬利用率超過99%,可支持單集群十萬卡級別AI算力規(guī)模。 

面向AI業(yè)務,阿里云計算產品也大幅演進更新。本次云棲大會上,容器服務ACK面向AI實現(xiàn)重磅升級,大模型應用冷啟動延遲降低85%,并可提供15000個超大規(guī)模節(jié)點支持。同時,容器計算服務ACS 即將推出 GPU容器算力。