今年以來,大數(shù)據(jù)是整個(gè)IT領(lǐng)域非常熱門的話題,特別是阿里巴巴的馬云提出 “人類正從IT時(shí)代走向DT時(shí)代”,把大數(shù)據(jù)推向了風(fēng)口浪尖。然而對(duì)于大部分企業(yè)來說,往往是空有海量數(shù)據(jù)而無實(shí)際使用價(jià)值,更不要說幫助管理者進(jìn)行業(yè)務(wù)決策。

云智慧作為一家專業(yè)的應(yīng)用性能管理服務(wù)商,常年與客戶的各種IT數(shù)據(jù)打交道,我們是如何看待大數(shù)據(jù)的呢,又是如何讓大數(shù)據(jù)對(duì)企業(yè)的業(yè)務(wù)決策產(chǎn)生價(jià)值的呢?請(qǐng)看云智慧高級(jí)產(chǎn)品經(jīng)理Fox對(duì)于大數(shù)據(jù)的最后一公里——數(shù)據(jù)可視化價(jià)值的思考。
什么是大數(shù)據(jù)
選擇分享這個(gè)主題的靈感主要來源于在云智慧所負(fù)責(zé)透視寶產(chǎn)品工作,以及Fox(以下為第一人稱)與父親的一次簡(jiǎn)短交流。
我父親是一個(gè)公務(wù)員,他每天有一個(gè)愛好是看新聞聯(lián)播,經(jīng)常新聞中會(huì)提到大數(shù)據(jù),偶爾會(huì)問我什么是大數(shù)據(jù)?國際上給出的定義是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。是不是很難懂?
有個(gè)段子可以幫大家生動(dòng)的理解大數(shù)據(jù),林彪帶兵打仗的時(shí)候有個(gè)特別的習(xí)慣,那就是每次戰(zhàn)斗結(jié)束后,都要用小本子記下所繳獲的武器種類、數(shù)量等數(shù)據(jù),樂此不疲,而大家對(duì)此都不以為意。有一天,在又一次遭遇戰(zhàn)后,士兵在給他念繳獲的武器數(shù)量時(shí),他突然叫停,然后興奮地指出,這次遭遇戰(zhàn)很可能遇到的是敵人的指揮部隊(duì)。原因是,這次繳獲的小槍與大槍的比例高于普通的戰(zhàn)斗,小車與大車的比例以及軍官與士兵的比例也都高于平均,因此他得到了這個(gè)結(jié)論。在這個(gè)數(shù)據(jù)的指導(dǎo)下,部隊(duì)一鼓作氣,追擊逃脫的部隊(duì),成功的把敵人的指揮官抓獲。
通過這個(gè)故事大家就能生動(dòng)的理解大數(shù)據(jù)的作用和價(jià)值。無論多數(shù)企業(yè)或個(gè)人是否已經(jīng)意識(shí)到大數(shù)據(jù)的真實(shí)存在,毫無疑問,我們生活在大數(shù)據(jù)時(shí)代。隨著大數(shù)據(jù)的興起,數(shù)據(jù)分析被分成以下幾個(gè)步驟:采集、統(tǒng)計(jì)、分析、呈現(xiàn),而數(shù)據(jù)呈現(xiàn)即數(shù)據(jù)的可視化,被稱為大數(shù)據(jù)的最后一公里。
什么是數(shù)據(jù)可視化
大數(shù)據(jù)已經(jīng)被國家列入十三五規(guī)劃,提倡開放,共享。開放共享的背后意味著人人都可以接觸和進(jìn)入大數(shù)據(jù)領(lǐng)域,企業(yè)不再為數(shù)據(jù)資源的壟斷發(fā)愁,因?yàn)橐磺卸际情_放的,如何獲取數(shù)據(jù)將不再是問題,困難在于數(shù)據(jù)有什么價(jià)值,用什么樣的手段才能把數(shù)據(jù)的價(jià)值直觀而清晰的表達(dá)出來。
我之前看到過一篇文章《設(shè)計(jì)中的設(shè)計(jì)》,里面提出一個(gè)概念叫視覺對(duì)話。如果要兩個(gè)語言、文字不通的陌生人進(jìn)行溝通,給他們一張紙,一只筆,他們一定是用最簡(jiǎn)潔的方式把自己的想法畫下來進(jìn)行交流,這就是視覺對(duì)話。
其實(shí)這也正是數(shù)據(jù)可視化的本質(zhì),通過可視化圖表將用比文字快10倍的速度將陌生的讀者帶進(jìn)門,大數(shù)據(jù)時(shí)代一個(gè)顯著特征就是數(shù)據(jù)可視化的崛起。作為大數(shù)據(jù)最后一公里的展現(xiàn)環(huán)節(jié),數(shù)據(jù)可視化將技術(shù)與藝術(shù)完美結(jié)合,借助圖形化的手段,清晰有效地傳達(dá)與溝通信息。
一方面,數(shù)據(jù)賦予可視化以價(jià)值;另一方面,可視化增加數(shù)據(jù)的靈性,兩者相輔相成,幫助企業(yè)從信息中提取知識(shí)、從知識(shí)中收獲價(jià)值。
為什么要做數(shù)據(jù)可視化
為什么很多企業(yè)開始擁抱數(shù)據(jù)可視化?是什么趨勢(shì)在驅(qū)動(dòng)可視化,換言之為什么企業(yè)變得更具視覺性?
我們首先澄清一點(diǎn),數(shù)據(jù)可視化絕對(duì)不是最近才流行起來的,早在原始社會(huì)穴居人類就將巖畫作為一種信息傳遞手段,而目前我用過最牛的大數(shù)據(jù)分析軟件就是Excel。
和5年前相比,企業(yè)對(duì)于數(shù)據(jù)可視化的需求越來越強(qiáng)烈。原因很簡(jiǎn)單,數(shù)據(jù)實(shí)在是太多了。正因?yàn)樾畔⒋蟊ǎ艜?huì)造就Google和百度這兩家以IT信息檢索為核心業(yè)務(wù)的搜索引擎巨頭。
而今天我們所生活的移動(dòng)互聯(lián)網(wǎng)時(shí)代,又與傳統(tǒng)互聯(lián)網(wǎng)時(shí)代截然不同,一方面移動(dòng)互聯(lián)網(wǎng)用戶是傳統(tǒng)互聯(lián)網(wǎng)的3倍,使用頻率是傳統(tǒng)互聯(lián)網(wǎng)的5倍,因此我們說這是一個(gè)15倍于傳統(tǒng)互聯(lián)網(wǎng)的市場(chǎng)。大數(shù)據(jù)的概念在最近兩年越來越熱,我們可以看一下來自Aigra的大數(shù)據(jù)圖表,就可以知道在互聯(lián)網(wǎng)上一分鐘內(nèi)會(huì)產(chǎn)生的內(nèi)容是多少了。

通過這張圖我們可以看到大數(shù)據(jù)到底有多大,而這對(duì)企業(yè)來說意味著兩點(diǎn):一方面,企業(yè)需要新的工具才能分析和理解大數(shù)據(jù);另一方面,企業(yè)最終的目的是利用這些數(shù)據(jù)更好的做商業(yè)決策,并通過數(shù)據(jù)分析能夠最直觀的理解數(shù)據(jù)的含義,這就離不開數(shù)據(jù)可視化。
數(shù)據(jù)可視化的作用和實(shí)現(xiàn)方法
數(shù)據(jù)可視化對(duì)企業(yè)有什么作用呢?我個(gè)人覺得不是所有數(shù)據(jù)都非得可視化,很多數(shù)據(jù)可視化確實(shí)有些牽強(qiáng),但數(shù)據(jù)可視化能給我們帶來的3個(gè)作用:
1、大規(guī)模的數(shù)據(jù)可視化可以幫助企業(yè)管理者對(duì)大量的數(shù)據(jù)有個(gè)迅速的了解,工作更高效。
2、正確的數(shù)據(jù)可視化可以清晰展現(xiàn)數(shù)據(jù)背后的意義。
3、數(shù)據(jù)可視化可以幫助企業(yè)做出準(zhǔn)確的決策。
數(shù)據(jù)越來越多,企業(yè)越來越希望搞清楚數(shù)據(jù)背后的意義和價(jià)值,而我們?cè)浦腔鄣耐敢晫氁苍絹碓接袃?yōu)勢(shì)!大家常用的用戶統(tǒng)計(jì)分析系統(tǒng)或日志分析所采集的數(shù)據(jù)局限于用戶行為和IT系統(tǒng)本身,而對(duì)于企業(yè)業(yè)務(wù)來說,二者是息息相關(guān)的,IT性能的優(yōu)劣影響著用戶體驗(yàn)和用戶轉(zhuǎn)化,而蜂擁而至的用戶也會(huì)造成性能的瓶頸。
通過透視寶可以把用戶的行為數(shù)據(jù)和系統(tǒng)性能關(guān)聯(lián)起來,不僅可以分析受用戶喜好的功能是什么,也可以分析他們的性能對(duì)用戶的影響,而當(dāng)我們的透視寶所覆蓋的行業(yè)越來越廣泛,企業(yè)還能用自身的數(shù)據(jù)和行業(yè)平均指標(biāo)進(jìn)行橫向?qū)Ρ,進(jìn)而輔助企業(yè)決策,這對(duì)于企業(yè)來說是很有價(jià)值的,這就是大數(shù)據(jù)可視化的魅力。

基本上各種各樣的圖表在不同的場(chǎng)景下,所表達(dá)的含義是有區(qū)別的,上圖就指導(dǎo)了我們什么類型的數(shù)據(jù)需要什么類型的圖表,展示會(huì)更清楚,也更容易讓客戶理解數(shù)據(jù)的價(jià)值。在透視寶中也需要根據(jù)不同的使用場(chǎng)景選擇更適合的圖表展示,后續(xù)我們會(huì)有針對(duì)性的優(yōu)化和做適度的調(diào)整。

這是一張很經(jīng)典的數(shù)據(jù)可視化圖表,以地圖的方式實(shí)時(shí)展現(xiàn)QQ在線使用人數(shù),我們可以換個(gè)角度思考,如果這是某個(gè)企業(yè)APP的在線使用人數(shù),是不是可以掛在老板的辦公室里,讓老板隨時(shí)對(duì)應(yīng)用的當(dāng)前用戶使用情況有清晰的了解,哪些地區(qū)一片黑,哪些地區(qū)用戶活躍集中,這商業(yè)決策上無疑有很大的幫助。這些數(shù)據(jù)都是透視寶可以拿到的,也就是說我們的透視寶可以發(fā)揮超級(jí)大的作用。

這是Audubon鳥類和氣候變化的報(bào)告中的一部分,它預(yù)測(cè)了季節(jié)變化的區(qū)域,黃色代表現(xiàn)在是夏季,藍(lán)色代表冬天。地圖具有神奇的能力,既是一個(gè)強(qiáng)大的數(shù)據(jù)可視化工具,也是一個(gè)強(qiáng)大的報(bào)告工具,可以給我們展示不能直接看到的東西。
我個(gè)人以為在數(shù)據(jù)可視化領(lǐng)域相對(duì)應(yīng)的三項(xiàng)技術(shù):
1、數(shù)據(jù)降維,我認(rèn)為數(shù)據(jù)降維是處理數(shù)據(jù)的首要任務(wù),我們通常將自己的個(gè)人欲望強(qiáng)加到數(shù)據(jù)可視化中,我們有太多的指標(biāo)都需要通過一個(gè)信息圖處理完成,這里面就出現(xiàn)一個(gè)問題這些維度的數(shù)據(jù)真的需要一張圖表現(xiàn)嗎?表現(xiàn)出來的信息,客戶能看的明白嗎?所以往往數(shù)據(jù)降維化繁為簡(jiǎn)是首要工作,其次我們要將數(shù)據(jù)清洗,去掉所謂的噪音,留下有價(jià)值的信息,否則在后面分析數(shù)據(jù)的時(shí)候就會(huì)受到不必要的干擾。
2、關(guān)聯(lián)關(guān)系,數(shù)據(jù)本身并無意義,只有關(guān)聯(lián)起來才能產(chǎn)生含義和價(jià)值,將不同的散點(diǎn)通過內(nèi)在和外在的聯(lián)系聚合在一起,使得數(shù)據(jù)之間可以通過不同的維度進(jìn)行關(guān)聯(lián),傳遞數(shù)據(jù)的價(jià)值,比如人群與性別,年齡,身高就是一個(gè)很典型的關(guān)聯(lián)關(guān)系。
3、扁平交互,PC 和手機(jī)屏幕是有限的,每增加一種顏色都會(huì)增加信息量,從而干擾對(duì)原有信息的傳遞,我們可以在地圖可視化中采取兩種策略實(shí)現(xiàn)數(shù)據(jù)隱藏,一種是逐級(jí)鉆取,充分利用地域的分級(jí)包含關(guān)系,使信息按照省-市-縣層次展示,而不必一下子展開;另一種是擴(kuò)展圖,將復(fù)雜的信息濃縮收集,像抽屜一樣,需要的時(shí)候再打開。
這三項(xiàng)技術(shù)說起來容易,但做起來卻不一定,因?yàn)槲覀兺茈y控制自己的欲望,加數(shù)據(jù),加關(guān)聯(lián),加功能。不管做什么,控制自己的欲望和堅(jiān)持很重要,不忘初心,方得始終。
舉個(gè)栗子
說下可視化組織的典范吧,最大的大數(shù)據(jù)公司是哪個(gè)?是擁有12億注冊(cè)用戶的Facebook嗎?還是Amzaon和GOOGLE?他們都是大紅大紫,享譽(yù)國際的大公司,這些公司也都不是等閑之輩,但要說典范,目前此榮譽(yù)當(dāng)屬Netflix(網(wǎng)飛)。
這家公司的起家跟互聯(lián)網(wǎng)或大數(shù)據(jù)沒有半毛錢關(guān)系,說的通俗點(diǎn)就是個(gè)租光盤的,Netflix 成立于1997年,最初只是開展通過郵遞租借DVD的業(yè)務(wù)。那個(gè)年代不論是外國還是中國,都有種路邊店叫錄像租賃店,要租借視頻必須親自去商店里左淘右淘,又因?yàn)榻?jīng)常延期交還光盤而收取滯納金。Netflix不開店面采用郵寄的模式,一炮而紅,2000年Netflix光滯納金收入就達(dá)到8億美元,占總收入的16%。
十年過去了,視頻租借模式已經(jīng)從成熟走向衰落,更重要的是隨著時(shí)間的推移, DVD的損壞,客戶的偷竊,郵遞成本不斷增加等諸多問題都給Netflix的租賃模式難以為繼,所以在2007年Netflix開始了自我顛覆,從實(shí)物DVD向流媒體的轉(zhuǎn)變。這個(gè)過程中Netfilx意識(shí)到客戶生成了多得令人難以置信的數(shù)據(jù),這不僅是關(guān)于誰看了什么節(jié)目的數(shù)據(jù),還收集到更多有價(jià)值的信息:
- 地理定位數(shù)據(jù),發(fā)現(xiàn)用戶在哪里觀看視頻;
- 設(shè)備數(shù)據(jù),發(fā)現(xiàn)用戶通過什么終端看視頻;
- 時(shí)間數(shù)據(jù),用戶什么時(shí)候觀看視頻,比如星期幾和具體時(shí)間等;
- 行為數(shù)據(jù),用戶每次看視頻的后退、快進(jìn)和暫停的行為。
不僅如此,Netflix還通過社交網(wǎng)絡(luò)Facebooke,Twitter及其他網(wǎng)站采集用戶的社交行為數(shù)據(jù),然后通過堅(jiān)實(shí)的基礎(chǔ)平臺(tái)和強(qiáng)大的大數(shù)據(jù)分析能力將數(shù)據(jù)可視化,并且成功的預(yù)測(cè)了用戶的喜好和偏愛。
未來Netflix可以進(jìn)一步強(qiáng)化對(duì)客戶下一步想要觀看什么視頻和內(nèi)容的預(yù)測(cè)能力,通過聲音,風(fēng)景,顏色等因素進(jìn)行推薦,這些元數(shù)據(jù)對(duì)客戶想看什么提供更有價(jià)值的洞察。
透視寶的數(shù)據(jù)可視化價(jià)值
以上是我對(duì)大數(shù)據(jù)和可視化的心得體會(huì),接下來結(jié)合透視寶做一些思考:
1、應(yīng)用性能數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)分析,應(yīng)用性能數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)息息相關(guān),可以告訴客戶性能數(shù)據(jù)與交易數(shù)據(jù)背后的故事。通過應(yīng)用性能數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)分析,是可以很好的預(yù)測(cè)性能達(dá)到什么樣的一個(gè)瓶頸的時(shí)候,就已經(jīng)開始影響客戶的業(yè)務(wù),最直觀的不僅是用戶的流失,更重要的是業(yè)務(wù)績(jī)效的下滑。
2、透視寶大屏,透視寶作為應(yīng)用性能的領(lǐng)導(dǎo)者,一方面我們提供幫助用戶發(fā)現(xiàn)應(yīng)用的性能問題的解決方案,另一方面我們是提供應(yīng)用性能數(shù)據(jù)可視化的倡導(dǎo)者,要通過應(yīng)用性能數(shù)據(jù)的可視化,把簡(jiǎn)單易懂的大數(shù)據(jù)分析結(jié)果呈現(xiàn)在客戶眼前,一目了然的將問題清晰定位,并且發(fā)現(xiàn)性能背后的意義。
當(dāng)然我們還在一步一步踏實(shí)的做好這一點(diǎn),比如未來透視寶大屏可以通過一張地圖實(shí)時(shí)展示APP用戶的活躍程度、性能狀況,性能對(duì)用戶分布的影響情況等等,未來給予我們的想象空間非常大。
落到分享的主題,可視化是大數(shù)據(jù)的最后一公里,行百里者半九十,數(shù)據(jù)可視化是透視寶非常重要的功能,未來我們將做好這一點(diǎn)。最后分享幾個(gè)數(shù)據(jù)可視化的資源工具,供大家學(xué)習(xí)和借鑒。


