數據挖掘技術誰最強?首次在中國大陸舉辦的CMKI CUP(國際數據挖掘競賽)日前閉幕,盛大文學力克ebay等等國際強勁對手,以優異成績摘得本次競賽的桂冠。這不僅顯示了盛大文學在用戶需求挖掘方面的實力,也代表了 “大數據”時代,中國在數據挖掘和信息檢索方面的國際領先地位。
CIKM的全稱是International Conference on Information and Knowledge Management,是信息檢索和知識管理領域的國際著名學術會議,堪稱數據挖掘和信息檢索方面技術的“奧林匹克”,今年首次在中國大陸舉行,會議邀請到了Google的大神級人物Jeff Dean、微軟的執行副總裁陸奇博士和德國Max Planck Institute for Informatics的Gerhard Weikum教授擔任主講人,盛況空前。
由盛大文學首席數據官陳運文博士帶領的“TOPdata”團隊,占據主場之利與全世界的數據挖掘科學家們一較高下——競賽的目標是通過機器學習技術來識別用戶查詢意圖(Query Intent Detection,QID)。主辦方聯合了百度公司,提供了百度線上的6千余萬行用戶的真實查詢日志和點擊行為數據,要求參賽隊伍根據用戶的行為數據,設計算法來自動判讀出用戶的需求意圖。例如當用戶在搜索“北京上海”時,同時還在查詢“上海 天氣”、“高鐵車票”等信息時,計算機要能聰明地判斷出用戶的需求是“從北京到上海的出行”并返回相對應的各類高價值的信息。參賽隊伍所開發的系統,對用戶意圖的識別既要全面又要準確。比賽一共吸引了全球遍布學術界和企業界的520支隊伍參賽,盛大文學代表隊所設計的算法,通過周密的用戶行為特征分析,和多個機器學習算法的訓練和融合技術,在比賽中不斷超越,最終以優異的成績一舉奪魁。
據悉,參加此次競賽的盛大文學數據團隊承擔了全公司大數據相關系統的研發工作,負責從海量的文學作品和用戶數據中挖掘高價值的內容,不但讀者們提供高質量的各類服務,也為文學作品版權的衍生如影視劇改編、游戲改編等業務提供了大量的數據指導和幫助。“盛大文學是全球最大的社區驅動型網絡文學平臺,在我們首創的網絡文學模式下創造出來的內容,天生就帶來了完整的覆蓋了內容、社區、流量、用戶屬性和用戶行為等全方位的海量數據”,陳運文表示:“我們的團隊就是在這樣的‘數據海洋’中天天鍛煉,拿世界冠軍,舍我其誰?!”