很早就有朋友建議我寫關于網站統計的東西,我總推脫來日方長,最近閑暇,想想還是整理一下,給大家當個故事看看也好。
初識統計網站
從 1998 年開始說吧,那時候互聯網上還看不到太好的統計系統,只有一些所謂的計數器程序,很多都是 perl 的,貼在網站底部,顯示當前網站的訪問次數。
這又分三種,一種是需要你裝到自己服務器上,用 cgi 方式執行的;另一種是在線注冊后給你一段 js 代碼,讓你自己嵌入到網頁里顯示的。此外還有一種,是在服務器上通過跑 web server 日志去統計的,然后每天給一個報告的,第三種也非常非常早,在 97 年我一邊讀書一邊兼職給虛擬主機公司打工的時候,就知道有這么個東西,但是那時候對所有互聯網的產品感覺上都傻傻的,沒有認真去分析過,只是知道老板有在用,當作服務賣給客戶,并沒具體去研究過技術和需求。
有一家最大的一家嵌入統計的,也就是上面的第二種,美國的,名字我都不記得了,好像是 fastcounter 類似的,當時被微軟收購了,微軟那時候搞了一個 bCentral 的平臺(好像是這個名字,商業中心的意思),把一些基礎服務合并在里面,提供給網站使用,我當時還很推崇來著。但是這玩意后來也沒有后來了。
讓人眼前一亮的是網易的易數統計,我一直覺得,在 2000 年以前以及 2000 年左右,網易絕對是中國互聯網最具有創造力和探索精神的公司,除了大家熟知的中國最早的免費郵局之外,網易還做了免費虛擬域名服務(彈窗廣告,日點擊至少萬次,在那個年代,是驚人的數字),虛擬社區(中國最早的大型論壇,在我印象里比新浪前身四通利方的規模大多了,看上去版式也舒服多了)服務,以及最早的免費網站統計服務。
易數統計是我非常熱衷使用的產品,除了我自己的網站在使用外(1999 年-2001 年我有創業做個人站),我每天必看的是易數排行榜,當時為了推廣我的交換廣告服務,我給排行榜從第一名到第一百名挨個手寫發郵件,那是互聯網的萌芽期,也是電子郵件的黃金期,那時候,人家的回復率和應答率還是很高的,和現在不能比。
然后,為了提高影響力,我通過我的廣告交換平臺刷排行榜(同行也在刷),當時爭不過杭州的太極鏈(太極鏈的創始人有兩個,其中一個是傅政軍,人家后來搞了超級賺錢 9158,除此之外,把 kaixin.com 賣給陳一舟的也是他。),他們排在商業網站榜單第一,于是我搶了個人網站榜單第一,這也給我的服務帶來了不少會員用戶。(很多優質站長都在看排行榜)
易數統計已經比傳統的計數器先進了很多,增加了諸如地區分析等功能,在那個時候讓人覺得不可思議。(慚愧,雖然現在我經常說把高并發下的 Ip 地址反查當作經典面試題來出,但是當年我把這個東西搞明白足足好幾年。。。)
感謝朋友提醒,當時還有一個熱訊統計,熱訊當時也是個有趣的公司,推出了一堆小工具,在早期互聯網,我還是蠻喜歡那個公司的,然后,也沒有然后了。
重新發現價值
2000 年前后我短暫加入了當時處于競爭關系的天圖科技(后來經過合并成了現在的互動通,當時是太極鏈的創始公司),當時互聯網一片混亂,誰也不知道未來究竟怎樣,天圖科技那時候也在尋找方向,想把會員網站聯盟化,于是搞出來了太極榜,此時網易似乎對易數統計已經放棄,太極榜無論性能還是功能都有了新的超越,很快就成為新的市場第一,并牢牢把持了好幾年。
直到 2004 年,互動通在視頻廣告上嘗到了甜頭,太極榜似乎也被淪落放棄,那時各種 js 嵌入的東西非常不規范,又是插件流行的時代,各種彈插件的統計大行其道。
2004 年下半年的時候,吳京川(百度聯盟的創始人)跟我說,知道么,zhao123 這樣的統計系統,一個月收入不少呢。我聽了很震驚,重新思考統計系統的價值。另外有人跟我說,50bang 被某巨頭投資了,價值極大。當時我蹉跎了好幾年,還在安全行業干了兩年程序員,我的廣告交換服務雖然沒有停止,但已經江河日下,市場地位岌岌可危。我想著用統計服務做增值服務來救活我的廣告交換,其實思路完全是錯的。(根本原因是,搜索引擎起來后,站長交換鏈接的目的是權重,而不是流量,搜索引擎的興起徹底扼殺了廣告交換網絡的空間,除了色情網站外,幾乎沒有什么大網站會上廣告交換。而我膽子最小,色情網站會員我是完全不會去發展的)。
但這個東西我卻去嘗試了,嘗試后發現廣告交換無可挽回,不過統計服務是可以獨立出來的。
在與一些 QQ 好友的交流合作下,我先后推出了 tong123 和「不錯統計『兩個版本,第一個版本非常爛,bug 極多,第二個稍好,但也很爛。然后遇到了一個重要的買主,龐升東。
龐升東 2000 年左右就是我廣告交換的會員,還給我打電話勸我去寧波和他創業,那時候心高氣傲的我哪里知道他是誰,當然一口回絕,04 年他找我合作統計,說實話,我真不覺得這代碼多值錢,狠狠心,咬咬牙,報價 2 萬多人民幣就賣給他了。
然后 1tong.com 出來了,并且很快成為市場第一。(通過統計,龐挖掘了一個活躍度非常高的社交社區,并收購了下來,重新包裝,推出了 51.com,這個域名的交易在北京,我有見證,并榮幸的和買家龐升東,賣家陳鵬,吃了一頓高檔面條,陳鵬憑借 51.com 域名所得 98 萬,再次創業成功,成就很大的事業,也是一段佳話)。
這里補充幾個細節,第一,做統計的時候,我去一個站長群里了解情況,是杜雪騫 杜和尚的 QQ 群,我去問,站長們覺得哪個統計好用,我列了好幾個,但是最后答案讓我意外,是不在我列表中的 hitsun.com(好吧,這個網站已經不存在了)。itsun 有同時在線功能是站長們非常強調的,這個意義我后來才搞明白,到今天谷歌統計都沒有,百度統計推出來很長時間才想到去做。但是為什么 ITSun 沒有成?因為他們技術沒跟上,對并發的支撐完全不行。
第二,關于代碼的價值,我當時還停留在軟件工程的角度思考問題,這玩意用我一個人能多少時間?一個月了不起了。(斷斷續續做的,當時還在做其他的東西,自己弄一個不成器的 OA 系統在賣,非常爛,不好意思提了)按照人月評估,我估計最多 1 個程序員 2 個月就可以搞定,當時月薪過萬的程序員已經很出色了。所以我覺得報了 2 萬多已經很過份了,而且網上,真有免費的開源代碼到處下載(就是撐不住并發)。
CNZZ的推出
1tong 超越了 50bang 成為新的市場第一,但是 1tong 的運營負責人不斷跟我抱怨,系統太不穩定,問題很多,這事我真的承認,確實寫的代碼不好,有很多 bug,我老老實實的總結了一些問題,列出了升級優化方案若干,然后,他們的每一任技術負責人,都是抱怨代碼太爛,后來我聽說他們有人還打算改寫 awstats(一個著名的基于服務端日志的統計系統,實話說,的確功能很強大,但是真的撐不住并發,而且和網頁嵌入式的很多技術原理不同)再建一套統計,但此事最后也不了了之,總之,我就一直要聽著他們的抱怨,看著他們對我系統的無動于衷。
1tong 成為市場第一,從技術上說,完全不是 50bang 的對手,(后面提到的 cnzz 也一樣),從產品上說,學習的 itsun,也不是自己多創新;但是恰恰是因為 50bang 的設計者對需求把握不到位,而 ITsun 的技術能力不足,讓這個產品有了脫穎而出的空間,當然,運營者的魄力也很重要,在那個時候,玩統計是純花錢的東西,龐升東算是很決斷的投入了。
這里多說一句,在 2004 年還是彈插件盛行,但是 50bang 不彈,后來新出來的都不敢彈了,因為站長肯定選擇不彈的。所以不彈插件后,統計怎么賺錢,真是個傷腦筋的大問題。
其實 2004 年底,我的職場有了重大的改變,簡單說,結束第二次失敗的創業(搞一個不成器的 OA 系統,也是全自己開發的),加入百度了。
2004 年底我向上司俞軍請示,我入職之前有和龐升東完成統計系統的交易,但是一直還沒完成搭建,那么現在入職了,我怎么處理此事,俞軍說自己私下處理完就好。所以 1tong 實際上是 2005 年初完成發布上線的。而 2004 年底,我將機房里的服務器拿了出來扔在家里,徹底結束了我的廣告交換服務。
八卦一下文本廣告交換,第一個做的是太極鏈,兩個創始人,一個是韓嘯,現在還在互動通,在一家公司做了 15 年,很了不起吧。他對中國互聯網的貢獻是,除了最早定義文本廣告交換之外,還最早引入了網站視頻廣告技術。當時這個東西挽救了新浪,也挽救了互動通。
另一個是傅政軍,后來離職后創建了 9158,也是互聯網的傳奇人物; 做文本廣告交換我是第二家,聲勢一度追平太極鏈,當時連 hao123 都是我的會員,但是由于膽子小,策略保守,不思進取,就慢慢停止了增長,后來領先的是 51link,也就是無憂鏈,創始人周浩,然后轉型做廣告聯盟,在 2008 年最早推網頁游戲的廣告聯盟。
我在百度做數據分析,看到了他們的投放流量,流量大的讓我震驚,又轉型做游戲開發,前一年他的公司要玩科技賣給了上市公司,憑這筆交易個人身價已經超過 6 個億。此外還有鳳凰鏈,也做的不錯,后來也成功轉型,然后似乎就出國定居了,消息不多了。反正我自己是最懶最笨的,這個必須承認的。
到了 2005 年下半年,龐升東已經開始將重心放在 51,1tong 的價值已經極大降低。而此時百度的大客戶部門,提出需要一套商業統計為客戶服務,當時我已經換崗到商業產品部門,他們在選型時征詢我的意見和建議,我毛遂自薦,這事我來做就好了,結果遭到上司的反對,讓我專注本職工作,那么不甘心的我私下還是把之前的統計代碼改了一下(其實更深層的目的是,我對 1tong 的抱怨非常不爽,想證明給他們看,我提出的優化改進方案是有用的,是他們自己不弄而已。)然后給領導去看,我已經做好了,能不能試試?領導給了我一個測試的機會,但是評測結果是不行。(具體原因似乎是這樣的,第一,是沒有一個他們認為客戶可能需要的功能,其實那個功能很簡單,但是我 js 不太靈,需要前端處理的有點扎手,又覺得那個功能意義不大;第二是展示報告太簡單了,這個,我不是設計師,不是前端工程師,我只是羅列統計數據,來證明系統的可行性。)
此事在百度不了了之,知情人都僅限于幾個人。但是說實話,心理還是很不服氣的,人總是想證明自己,那時候我記得百度上市了,一下子 100 多美金一股非常超心理預期,我也算有些期權,算算自己是有點錢的人了;后來代碼很廉價(百度上市后,真的不是貪那點錢)的給了姚劍軍(阿飛這個名字是不是更有名?),然后阿飛很快就推出了 cnzz.com。
崛起之路
cnzz.com 一樣有 bug,有問題,有很多不足;但是比起 1tong 而言,穩定性有了很大提高,功能性也有了一定的提高。而更重要的是阿飛的參與度;我一直說自己不是什么牛逼的技術,這話不是自謙,是實事求是,1tong 的各任技術負責人(人員流動好快的說)都說我代碼不行,我承認他們有道理,但是阿飛覺得行,行在哪里呢?
第一,他需要的東西,我都解決了,從功能到性能;第二,代碼我大概說說他就看得懂,自己能改。阿飛本身也不是科班技術出身,他一直想做統計,還專門找人開發,但是總是卡在關鍵問題上處理不過來,拿過我的代碼,界面不行,展示太粗陋,他找個美工設計一下,自己從代碼里咔嚓就改了。有什么需要升級更新的,我跟他大概說說,他自己咔嚓就改了。所以 cnzz 成為市場第一,他是貢獻最大的。
而且,從一開始沒多久,cnzz 就有一個綜合搜索分析后臺,類似現在的 data.cnzz.com,但功能更強悍,這個后臺并不針對個站,而是綜合分析所有搜索來路的數據,并給出每個搜索引擎的流量分布,地區分布;每個地區的搜索引擎流量分布(當時發現,上海的 google 使用率是東北、湖南的 5 倍以上;所以當時一些調研機構集中在北上廣做搜索引擎市場使用率調研的數據,基本沒法看。);每個客戶端的搜索引擎流量分布;更重要的功能是,每個搜索引擎的渠道分布!完整掌握百度,google, soso,sogou 的流量渠道構成,以及彼此的對比(比如 hao123 給百度的貢獻以及 265 給 google 的貢獻,以此類推)。這個數據現在 cnzz 也不敢開放出來。
我最近才明白我的優勢在哪里,我技術肯定不是最好的,但是遇到問題時候我還是有很多野路子使的(這就是被人正規技術一直鄙視的原因,他們只看到了不合理的代碼,卻沒體會到具體解決問題的訴求在哪里);我產品觀還可以,不算特別好,但是總算能找到一些要點。
所以在 2005 年之前,在統計領域,我自己的跨界優勢沒有對手,而另一項優勢是,看到數據在那里,我能知道價值在哪里,怎么弄出來,我在百度商業分析部的時候,搞的很多東西,都是沒有領導吩咐,自己鼓搗出來的。cnzz 對我而言,是一個賭氣的產品,因為 1tong 說我的代碼很爛,百度的領導說我的東西不行。我當然有怨氣,我想證明自己,也很感謝阿飛幫我證明了自己,靠我個人是搞不定后面很多東西的,光前端就要我命了。
好玩的是,在百度也一直沒人知道,cnzz 就是我寫的系統。所以他們 09 年以合作的名義找 cnzz 去講課(那時候操盤手已經從阿飛換成了強姐),然后底下認真的記筆記,然后推出了百度統計,我都覺得好笑,你們直接找我講就好了,我不要錢,每個細節我都告訴你,源代碼都給你。干嘛這么糾結呢?
各路對手狹路相逢
05 年把統計給阿飛,而自己完全不參與(沒要一點股份),另一個原因是,當時 Google Analytics 免費了。實話說,我對 google 統計免費的第一感覺是,絕望,我認為免費統計終結了,大家不用再做了,阿飛反而堅持還有機會,事實證明他是對的。
從技術實現角度,我試用過 google 統計后就體會到,和我的產品,完全不是一個技術水準的東西。人家的實現復雜度和技術要求,是我當時的能力完全達不到的。(好吧,我坦白,現在也達不到。)但是后來我發現,google 統計兩個問題導致在中國市場無法獲得領頭地位。
第一,翻譯質量極遭,用我的話說,看中文不如看英文更清楚,側面了解的信息是,google 統計中國的負責人對這個統計的認識遠不如一些牛逼的個人站長。第二,沒有實時統計和同時在線(現在似乎實時了?好久不關注了)。再解釋一下同時在線,我經常問一個運維題目,如果有用戶反應網站卡,慢,打不開,處理步驟和分析思路是什么。一般運維人員在這里都會落入純技術應答,只有站長和意識極佳的技術人員才會說,第一步先看在線數據!這是優秀站長最關心的東西,如果用戶反應卡,先看同時在線,如果和平時相仿,說明是個例,就算要處理,也不急迫;如果同時在線比平時有較大下降,說明是嚴重問題,當然要緊急處理!技術分析思路是后續的事情。
所以很多站長是同時放 cnzz 和 google 統計,因為 cnzz 提供了 google 統計不能提供的功能;而且,一個站長,一周看一次 google 統計就夠了,但是,同時在線數據和實時統計,他可能一天會看很多次 cnzz,從站長的到達率和使用頻度,cnzz 遠超 Google Analytics。這就是我一直說,ITsun 才是當時理念最好的統計。
好吧,必須說一下 51la,這是個非常不錯的統計,可惜和 cnzz 頂在了一個時代,他們最初也是在技術上有所欠缺,并發支撐能力比 cnzz 有缺陷,所以只在 1tong 衰落和 cnzz 崛起之間的一段時間保持了領先,然后就被 cnzz 超越,到 07 年左右的時候,51la 的技術能力已經接近或追平 cnzz,但是市場格局也大勢已去。順便再說一下,50bang 也黯然關閉,而 07-08 年,為了適應更大規模的統計需求以及更復雜的功能需求,cnzz 進行了代碼重構,核心技術人員,來自于 50bang,所以今天的 cnzz,已經沒有我的代碼了。
另外,cnzz 崛起后,龐升東直接把 1tong 賣給了互動通,也就是太極榜的公司,互動通派來一個技術和我交流,他一直強調他們太極榜的技術多牛,數據倉庫多先進,嗯,我老老實實的把 1tong 的問題和 cnzz 的升級方案給他們了,然后,也沒有然后了。
網友提醒,51yes 也是一款優秀的統計,此外還有量子統計必須提一下,實話說,我一度很想通過淘寶開放平臺搞一套店鋪統計,后來發現淘寶不允許嵌入 js,而很多重要的統計項目只有內部接口,也就是完全無法和量子統計平等競爭,雖然仍有很多切入點值得深挖,但是懶散的我已經沒有動力去弄了。。。嗯,還有雅虎統計,這個,呵呵。
百度統計在 10 年后基本成型,到今天,這么講,我給人推薦都是百度統計多,原因無他,第一是功能上各家基本雷同,沒什么太大差異; 第二是百度統計有個加分項,可以統計百度真實收錄數,這可是站長極為關心的;而第三則是,第二隱藏了一個潛臺詞,有理由懷疑,使用百度統計可以給百度蜘蛛提交新頁面,可以增加百度收錄數!所以,還有什么理由拒絕百度統計呢?
關于網站統計的未來
那么,現在的網站統計,是否還有提升空間呢?有,極大有。
07 年還是 08 年,有一個號稱中科院參與合作的一個特別牛的統計系統---緯度統計,號稱各種數學模型和人群分析的統計,拿了一些投資,當時我就非常不看好,很簡單,第一,這種技術非常不成熟,所有的模型都是基于一些想象的分類基準,很難落實成為可信的東西;第二,讓這些高大上的人群去理解草根站長,實在太難了。很快那個產品也沒了。
但是有個強需求,我從 07 年開始提,一直沒有人實現,哦,我努力嘗試去實現過,但是正值 cnzz 大改版,我也無法介入新系統,只好建議幾下,然后似乎也不了了之。
具體來說就是,傳統的網站統計,都是基于頁面的統計,每個目標頁面的訪問情況,每個來路頁面的轉化情況;稍微有一點變化的,可以基于子域名和目錄統計,但是這些都不夠!遠遠不夠!!
真正需要的,是行為統計和行為間轉化;舉例而言,比如說百度空間,你要看的不是哪個文章有多少訪問量(運營人員或許要看),你要看的是什么行為有多少訪問量(多少次文章閱讀,多少次個人主頁瀏覽。多少次評論發布,等等),以及行為到行為的轉化和漏斗模型,從什么行為到什么行為,而不是從什么頁面到什么頁面。
將每個 page 的數據通過某種規則聚合行為,才是統計價值所在;google 統計本身有這個功能,但是配置起來很復雜,而實際上,對于大部分使用通用 cms, 論壇系統,商城系統的網站來說,預置行為定義是很簡單的事情(以商城為例,要看的統計是多少人次瀏覽商品,多少人次搜索商品,多少人次瀏覽目錄,多少人次下單,多少人次加入購物車,等等行為以及行為之間的轉化)。
而對于其他類型的網站,配置可以作為增值服務提供,并不十分復雜,所以,要我說,現在的各種網站統計,基本停留在不思進取的境界。
App 興起,移動統計開始崛起,友盟占了先籌,而現在 TalkingData 似乎后勁更足。具體產品我了解不多,就不敢妄言了。
但是說一個要點,統計需求,說白了,兩大目標
第一,是對市場運營行為的指導和分析,提醒運營者,不同流量渠道的價值和轉化情況,來優化運營,優化市場投放,提升運營效率。
第二,是對產品的指導和分析,提醒產品設計者,不同類型用戶的行為特征和轉化分析,來優化產品設計,優化產品本身的指標。
不客氣的說,很多做統計的人連這個都沒搞明白。
嗯,自夸的成分很大,您湊活看吧。