當(dāng)你悠閑的在街上散步的時(shí)候,你可能不知道一塊降雨云將在10分鐘后和你相遇。這時(shí),墨跡天氣會(huì)給一個(gè)提示,點(diǎn)進(jìn)去以后還可以看到這場(chǎng)雨的持續(xù)時(shí)間。這是墨跡天氣即將上線的一項(xiàng)功能,背后依托的是其強(qiáng)大的大數(shù)據(jù)分析技術(shù)。
日前,墨跡天氣同國(guó)內(nèi)最大云計(jì)算服務(wù)商阿里云展開(kāi)合作,進(jìn)一步強(qiáng)化其大數(shù)據(jù)優(yōu)勢(shì)。墨跡天氣通過(guò)采用阿里云的大數(shù)據(jù)計(jì)算服務(wù)ODPS,對(duì)4億用戶產(chǎn)生的日志進(jìn)行分析,基于此提供更加個(gè)性化的天氣服務(wù)。
4億用戶是什么概念?也就是說(shuō),13.5億中國(guó)人,每四個(gè)人中就有一個(gè)下載過(guò)墨跡天氣,超過(guò)了美國(guó)人口總數(shù)。這些用戶每天有超過(guò) 5 億次的天氣查詢需求,這一數(shù)字甚至要大于 Twitter 每天發(fā)帖量。
“用戶每天產(chǎn)生的日志量大約在400GB。我們需要將這些海量的數(shù)據(jù)導(dǎo)入云端,然后分天、分小時(shí)的展開(kāi)數(shù)據(jù)分析作業(yè),分析結(jié)果再導(dǎo)入數(shù)據(jù)庫(kù)和報(bào)表系統(tǒng),最終展示在運(yùn)營(yíng)人員面前。”墨跡天氣運(yùn)維部經(jīng)理章漢龍介紹,整個(gè)過(guò)程中數(shù)據(jù)量龐大,且計(jì)算復(fù)雜,這對(duì)云平臺(tái)的大數(shù)據(jù)能力、生態(tài)完整性和開(kāi)放性提出了很高的要求。
在大數(shù)據(jù)處理能力方面,阿里云ODPS剛剛在Sort Benchmark排序競(jìng)賽中斬獲了世界冠軍。Sort Benchmark被認(rèn)為是計(jì)算界的奧運(yùn)會(huì),全球頂尖公司和學(xué)術(shù)機(jī)構(gòu)都會(huì)參加,以評(píng)估他們的最新研究成果。
此外,阿里云ODPS提供更為易用、全面的大數(shù)據(jù)分析功能。ODPS可根據(jù)業(yè)務(wù)情況做到計(jì)算資源自動(dòng)彈性伸縮,天然集成存儲(chǔ)功能。通過(guò)簡(jiǎn)單的幾項(xiàng)配置操作后,即可完成數(shù)據(jù)上傳,同時(shí)實(shí)現(xiàn)了多種開(kāi)源軟件的對(duì)接。
此前,墨跡天氣的這一流程是在國(guó)外某云計(jì)算平臺(tái)上完成的,需要分別使用云存儲(chǔ)、大數(shù)據(jù)分析等服務(wù),數(shù)據(jù)分析完成后再同步到本地?cái)?shù)據(jù)庫(kù)中與報(bào)表系統(tǒng)對(duì)接。章漢龍介紹,在完成遷移后,墨跡天氣的整體存儲(chǔ)和計(jì)算成本降低了70%。同時(shí),墨跡還可以借助ODPS上的機(jī)器學(xué)習(xí)算法,對(duì)數(shù)據(jù)進(jìn)行深度挖掘。
章漢龍?zhí)岬降倪@些算法均來(lái)自阿里巴巴集團(tuán)的核心算法庫(kù),經(jīng)歷過(guò)雙11、雙12等戰(zhàn)火錘煉。這其中包括特征工程、數(shù)據(jù)探查與統(tǒng)計(jì)、大規(guī)模機(jī)器學(xué)習(xí)、深度學(xué)習(xí),以及阿里在文本、圖像和語(yǔ)音處理方面的數(shù)據(jù)技術(shù)。


