當你悠閑的在街上散步的時候,你可能不知道一塊降雨云將在10分鐘后和你相遇。這時,墨跡天氣會給一個提示,點進去以后還可以看到這場雨的持續時間。這是墨跡天氣即將上線的一項功能,背后依托的是其強大的大數據分析技術。
日前,墨跡天氣同國內最大云計算服務商阿里云展開合作,進一步強化其大數據優勢。墨跡天氣通過采用阿里云的大數據計算服務ODPS,對4億用戶產生的日志進行分析,基于此提供更加個性化的天氣服務。
4億用戶是什么概念?也就是說,13.5億中國人,每四個人中就有一個下載過墨跡天氣,超過了美國人口總數。這些用戶每天有超過 5 億次的天氣查詢需求,這一數字甚至要大于 Twitter 每天發帖量。
“用戶每天產生的日志量大約在400GB。我們需要將這些海量的數據導入云端,然后分天、分小時的展開數據分析作業,分析結果再導入數據庫和報表系統,最終展示在運營人員面前。”墨跡天氣運維部經理章漢龍介紹,整個過程中數據量龐大,且計算復雜,這對云平臺的大數據能力、生態完整性和開放性提出了很高的要求。
在大數據處理能力方面,阿里云ODPS剛剛在Sort Benchmark排序競賽中斬獲了世界冠軍。Sort Benchmark被認為是計算界的奧運會,全球頂尖公司和學術機構都會參加,以評估他們的最新研究成果。
此外,阿里云ODPS提供更為易用、全面的大數據分析功能。ODPS可根據業務情況做到計算資源自動彈性伸縮,天然集成存儲功能。通過簡單的幾項配置操作后,即可完成數據上傳,同時實現了多種開源軟件的對接。
此前,墨跡天氣的這一流程是在國外某云計算平臺上完成的,需要分別使用云存儲、大數據分析等服務,數據分析完成后再同步到本地數據庫中與報表系統對接。章漢龍介紹,在完成遷移后,墨跡天氣的整體存儲和計算成本降低了70%。同時,墨跡還可以借助ODPS上的機器學習算法,對數據進行深度挖掘。
章漢龍提到的這些算法均來自阿里巴巴集團的核心算法庫,經歷過雙11、雙12等戰火錘煉。這其中包括特征工程、數據探查與統計、大規模機器學習、深度學習,以及阿里在文本、圖像和語音處理方面的數據技術。