隨著IT系統復雜程度的增加,傳統的IT運維方式已不能適應企業快速發展的業務需求。企業需要主動發現、準確定位、快速響應來減少業務損失帶來的運營風險。因此,如何幫助企業減小運營風險,幫助企業IT運維人員擺脫繁瑣的工作,成為一個企業提升自身競爭力,走向商業成功必須要解決的問題。
對IT從業者來說,APM(應用性能管理)想必并不陌生。作為IT服務管理的重要組成部分,APM在互聯網企業應用中扮演著不可或缺的角色,它能對企業的關鍵業務應用進行監測和優化,提高應用的可靠性和穩定性。從而幫助企業IT運維人員提升工作效率,幫助企業對系統即時監控實現對應用程序性能管理和故障管理的系統化。
在由51CTO主辦的WOT2015互聯網運維與開發者大會上,APM廠商云智慧公司的資深技術架構師李俐明先生接受了記者的采訪。
云智慧資深技術架構師李俐明先生正在接受記者的采訪
APM帶來了什么?
對于一線的開發工程師而言,APM可幫助他們預知性能問題,避免其成為故障,做到提前處理。并對已有故障問題做到盡早的發現盡早處理,以免故障周期變長,對企業造成嚴重的損失。而對于管理者來說,APM可以幫助其準確診斷業務癥結,并對流程和架構作出可行性的優化。
在云計算、大數據以及移動互聯成為主流的今天,APM發揮著積極可靠的作用。云計算方面,對于云端的監控與傳統的應用監控指標沒有什么大的不同,相對來說只是在云端的云主機對磁盤的I/O性能要求更高。因為要做大量的虛擬化應用,對磁盤的I/O性能更關注。
大數據方面,Hadoop這種大數據架構認為故障隨時都會發生。這時除了需要技術大牛外還需要APM這樣的工具,利用工具來分析復雜繁多的東西,監測并獲知出現問題的地方。比如:消息隊列處理不過來了,要及時發現,是不是要擴展消息隊列,或者這個消息隊列是不是合適,是不是需要再換一個。
此外,移動互聯網的發展促使傳統的PC用戶逐漸轉向APP。目前,做APP開發的企業越來越多,APP質量良莠不齊,可能今天上線一百個APP,明天就有九十九個APP死掉。要想APP獲得更長的生命周期,必須采用應用性能監控來及時發現APP用戶喜歡什么,幫助開發者取優棄劣,并對其進行優化來提升整體水平,從而吸引更多的用戶下載使用。
云智慧的APM服務
在李俐明看來,云智慧的APM服務為客戶提供了保障用戶業務連續性、實時發現系統問題,以及提供系統優化調整的方案和建議幾個層面的價值。實現這些價值,做好故障預測是必須要做到的事情。
云智慧的APM可以通過大數據分析通過趨勢預警幫助運維工程師去及時處理問題。比如對Web服務器Apache上PC端口狀態的監測。假設平常80端口的連接數是幾百個,syn是20個。當突然有一天,我們發現連接數突然升高到一萬,而且syn的狀態特別多,那么APM可以初步判斷有性能攻擊的行為,并做出預警。這是根據以前的監控數據來進行比對,通過計算平均值,看躍變超過百分比,來判斷是否存在異常,達到故障預測的目的。
現在,大部分APM都會涉及到代碼層的監測。對此,李俐明做了一個形象的比喻:“如果想了解某戶人家的情況,利用望遠鏡在遠處觀察不如進入這戶人家了解到的情況更多更真實。”
為了讓用戶踏實放心的使用云智慧的產品,云智慧也將對所有嵌入式的代碼進行開源,以確保服務的安全性;此外,云智慧也在做一些合規性的認證。而最終,將通過以上兩種方式最終實現開放意義上的性能管理。
APM的未來
李俐明表示:隨著互聯網的快速發展,移動設備的普及,IT系統的日益復雜化,如何保障系統的可靠運營變得非常重要,因此APM市場發展空間廣闊。而未來,云智慧將更加關注業務連續性。通過提升業務性能管理來幫助企業產品的運營,實現更高的投資回報率。
目前,云智慧主要有監控寶與透視寶這兩款“寶寶”產品。監控寶經過多年發展已經非常成熟,主要向用戶提供基于SaaS的網站性能監控和告警服務,包含網站監控、API監控、服務器監控和服務性能監控等。
透視寶則是云智慧的戰略升級產品,是面向業務的基于大數據分析的端到端應用性能管理解決方案。解決運維可視,運營風險可控,從而實現業務增長可期。透視寶主要針對移動和網站應用,提供全面的性能監控、分析與管理解決方案。透視寶能夠幫助企業實現應用性能的最優化、改進與優化終端用戶體驗、加速系統開發及交付進程、規避與減小整體投資風險、提高 IT 生產效率。