AI 模型的深入發展,導致了數據處理方式與技術架構的深刻變化,相關應用產生的日志、鏈路等可觀測數據規模呈指數級增長,數據結構復雜度也與日俱增,而AI部署的異構環境、資源及平臺也越發多元,都給可觀測性的準確、實時、高效與智能化發展帶來了巨大挑戰。
“以阿里云可觀測產品家族為代表的云原生可觀測工具,正引領著 AI-native 可觀測加速邁向智能化。企業用戶可以像‘搭積木’一樣輕松、靈活地構建可觀測體系,更高效地管理與觀測 IT 資源與服務,為 AI 創新夯實技術底座。”阿里云云原生應用平臺負責人丁宇表示。

在2024云棲大會上,日志服務 SLS、云監控 CMS、應用實時監控服務 ARMS 等阿里云可觀測產品家族實現了重磅更新,面向模型訓練、推理及應用提供全鏈路的可觀測服務。
在模型訓練場景中,云監控 CMS 與阿里云 AI 算力產品及平臺深度集成,全面采集計算、存儲、網絡調度等 AI 基礎設施的可觀測數據,有效覆蓋數據準備、模型開發、訓練和部署等環節,確保模型訓練全流程可感知、可觀測,為企業在 AI 基礎設施的容量管理和可用性保障保駕護航。
在模型推理場景中,可觀測性更多聚焦于推理性能提升、模型輸入輸出的質量優化及資源消耗的有效管理。應用實時監控服務 ARMS 推出符合 OpenTelemetry 標準的自研 Python Agent,全面支持通義千問/ LLamaIndex / LangChain 等國內外主流框架和模型,采集豐富的指標、鏈路及持續剖析數據,借助開箱即用的數據可視化大盤與性能診斷功能,確保用戶實時掌握模型運行狀態及潛在瓶頸,為大模型應用的穩定運行與高效運維提供堅實的基礎。
與此同時,日志服務 SLS 與大模型服務平臺百煉深度集成,實現百煉模型 API 層面的可觀測指標全覆蓋,并應用于性能觀測、穩定性評估、成本管控、安全合規等不同應用場景,幫助企業優化資源配置和業務決策。同時,SLS 核心能力大幅提升,掃描性能提升 10 倍,達到 1GB/s 以上;處理性能提升至 TB 級每分鐘,單 GB 處理成本降低60%。此外,SLS 推出 Elasticsearch 兼容方案,相較于自建其綜合成本可降30% 以上。
據悉,阿里云已為全球80余個國家的百萬企業級用戶提供高效便捷、安全穩定的可觀測服務。茶百道基于ARMS快速建立運維觀測與響應能力,故障恢復效率提升 50% 以上;傳音借助 Prometheus、Grafana 等可觀測產品,業務上線效率提高 60%;極氪基于阿里云可觀測產品推行的應急響應機制與 ChatOps 協同機制,告警平均恢復耗時縮短 50%。