阿里云全新升級可觀測家族,運維監(jiān)控綜合成本降低30%

2024-09-21 16:43:44來源:威易網(wǎng)作者:

9月21日,2024云棲大會,阿里云發(fā)布全新的 AI 原生全?捎^測平臺,首次實現(xiàn)云上 AI 大模型從訓(xùn)練到推理再到應(yīng)用的全鏈路實時觀測、告警與診斷。

9月21日,2024云棲大會,阿里云發(fā)布全新的 AI 原生全?捎^測平臺,首次實現(xiàn)云上 AI 大模型從訓(xùn)練到推理再到應(yīng)用的全鏈路實時觀測、告警與診斷。同時,阿里云可觀測產(chǎn)品家族也實現(xiàn)了全新升級,最常用的日志服務(wù) SLS 相較于自建體系,運維監(jiān)控綜合成本可降低 30% 。
 
AI 模型的深入發(fā)展,導(dǎo)致了數(shù)據(jù)處理方式與技術(shù)架構(gòu)的深刻變化,相關(guān)應(yīng)用產(chǎn)生的日志、鏈路等可觀測數(shù)據(jù)規(guī)模呈指數(shù)級增長,數(shù)據(jù)結(jié)構(gòu)復(fù)雜度也與日俱增,而AI部署的異構(gòu)環(huán)境、資源及平臺也越發(fā)多元,都給可觀測性的準(zhǔn)確、實時、高效與智能化發(fā)展帶來了巨大挑戰(zhàn)。
 
“以阿里云可觀測產(chǎn)品家族為代表的云原生可觀測工具,正引領(lǐng)著 AI-native 可觀測加速邁向智能化。企業(yè)用戶可以像‘搭積木’一樣輕松、靈活地構(gòu)建可觀測體系,更高效地管理與觀測 IT 資源與服務(wù),為 AI 創(chuàng)新夯實技術(shù)底座。”阿里云云原生應(yīng)用平臺負責(zé)人丁宇表示。
 
 
在2024云棲大會上,日志服務(wù) SLS、云監(jiān)控 CMS、應(yīng)用實時監(jiān)控服務(wù) ARMS 等阿里云可觀測產(chǎn)品家族實現(xiàn)了重磅更新,面向模型訓(xùn)練、推理及應(yīng)用提供全鏈路的可觀測服務(wù)。
 
在模型訓(xùn)練場景中,云監(jiān)控 CMS 與阿里云 AI 算力產(chǎn)品及平臺深度集成,全面采集計算、存儲、網(wǎng)絡(luò)調(diào)度等 AI 基礎(chǔ)設(shè)施的可觀測數(shù)據(jù),有效覆蓋數(shù)據(jù)準(zhǔn)備、模型開發(fā)、訓(xùn)練和部署等環(huán)節(jié),確保模型訓(xùn)練全流程可感知、可觀測,為企業(yè)在 AI 基礎(chǔ)設(shè)施的容量管理和可用性保障保駕護航。
 
在模型推理場景中,可觀測性更多聚焦于推理性能提升、模型輸入輸出的質(zhì)量優(yōu)化及資源消耗的有效管理。應(yīng)用實時監(jiān)控服務(wù) ARMS 推出符合 OpenTelemetry 標(biāo)準(zhǔn)的自研 Python Agent,全面支持通義千問/ LLamaIndex / LangChain 等國內(nèi)外主流框架和模型,采集豐富的指標(biāo)、鏈路及持續(xù)剖析數(shù)據(jù),借助開箱即用的數(shù)據(jù)可視化大盤與性能診斷功能,確保用戶實時掌握模型運行狀態(tài)及潛在瓶頸,為大模型應(yīng)用的穩(wěn)定運行與高效運維提供堅實的基礎(chǔ)。
 
與此同時,日志服務(wù) SLS 與大模型服務(wù)平臺百煉深度集成,實現(xiàn)百煉模型 API 層面的可觀測指標(biāo)全覆蓋,并應(yīng)用于性能觀測、穩(wěn)定性評估、成本管控、安全合規(guī)等不同應(yīng)用場景,幫助企業(yè)優(yōu)化資源配置和業(yè)務(wù)決策。同時,SLS 核心能力大幅提升,掃描性能提升 10 倍,達到 1GB/s 以上;處理性能提升至 TB 級每分鐘,單 GB 處理成本降低60%。此外,SLS 推出 Elasticsearch 兼容方案,相較于自建其綜合成本可降30% 以上。
 
據(jù)悉,阿里云已為全球80余個國家的百萬企業(yè)級用戶提供高效便捷、安全穩(wěn)定的可觀測服務(wù)。茶百道基于ARMS快速建立運維觀測與響應(yīng)能力,故障恢復(fù)效率提升 50% 以上;傳音借助 Prometheus、Grafana 等可觀測產(chǎn)品,業(yè)務(wù)上線效率提高 60%;極氪基于阿里云可觀測產(chǎn)品推行的應(yīng)急響應(yīng)機制與 ChatOps 協(xié)同機制,告警平均恢復(fù)耗時縮短 50%。
 
關(guān)鍵詞:阿里云云棲大會