點點網如何出產高品質內容

2012-03-06 11:40:55來源：infoq作者：

內容決定社區，品質選擇用戶
到底是什么決定了2011年社區產品（以SNS為代表）在國內外發展的紅紅火火，Web2.0大行其道？點點雖給不出一個絕對的答案，不過不難看出，信息爆炸對時代的沖擊，徹底地改變著人們的生活方

內容決定社區，品質選擇用戶

到底是什么決定了2011年社區產品（以SNS為代表）在國內外發展的紅紅火火，Web2.0大行其道？點點雖給不出一個絕對的答案，不過不難看出，信息爆炸對時代的沖擊，徹底地改變著人們的生活方式，也為這個時代的發展全方位拓寬了方向。從最初的基礎的信息獲取渠道——報紙電視，到新生的高速信息渠道——互聯網，大量信息獲取對日常生活的沖擊越來越大，使得人們對信息的實時性要求變得越來越高。在Web1.0時代，網站創造、整合、推送內容，用戶僅僅作為內容的消費者，這樣對用戶來說，獲取內容的品質有保證，對網站來說，也可以很好地主導社區走向，相對容易形成社區良好的氛圍。可是隨著用戶對數據量的要求越來越大，Web1.0社區逐漸有些力不從心，需求催生了Web2.0里用戶既是內容和數據的產生者，整理收集者，信息守門員，同時也作為內容消費者的新型互動模式，讓用戶自發地形成圈子，可新的問題隨之到來：用戶產生內容良莠不齊，話題也不集中，怎么辦？在這個狀況下，就有了相應的數據挖掘/ 推薦系統。

“人工”智能

眾所周知，數據挖掘與推薦是在有一定數據量基礎上的算法，所以大家在比較大的網站做數據挖掘相對容易，數據的分類聚類效果會更好，那么在網站初期，或者大網站在開辟一個新的內容形式時該如何進行機器學習？

在點點網最初就遇到了這樣的問題，我們采取的方案就是采用“人工”智能，讓用戶參與進來對內容進行分類與高品質數據的篩選，通過鼓勵用戶給不同內容增加不同的標簽來進行精準的分類，通過用戶對一個內容的喜歡分享，對博客的分類推薦來收集精品內容，精品博客。也即：增加數據的多樣性，從盡可能多的角度去考查現有的少量數據，同時采用類似PAGE RANK的思想，好的內容由好博客產生，好博客產生好的內容。

在處理點點的數據時主要有以下幾個方面

文章聚合
在處理文章時首先會根據作者帶的標簽情況做有監督的聚合，可有時也會發現用戶誤用標簽的情況，比方說為了增加文章的曝光率加入了許多同義標簽，對這樣的標簽就需要進行初步的同義詞篩選。做了聚合之后的數據就可以應用于標簽系統。其次就是對原文做切詞處理，并且加入原博客自帶屬性。這部分數據可以應用于內容推薦
標簽相關度
相關度主要用于測量不同標簽之間的向量距離，用來衡量不同標簽之間的相關程度，包括用戶對標簽的誤拼等修正，從數據方面提供給其它算法以提高文章分類的準備度，另一方面從產品角度在用戶填寫標簽時做相關標簽建議
博客聚合
在點點里，一個用戶可以擁有多個不同興趣愛好的博客，這提供給用戶便利的管理內容與關系網絡的方法，我們在對文章按照博客進行聚合時會依據博客類型進行區分，對默認博客劃分為用戶關系網絡，在默認博客里的關注與被關注假定為線下/線上關系的映射，不參與內容向量劃分。

對于關注量較大的子博會用歷史的標簽以及博客本身標簽構建聚合中心，對內容向量進行權重加成。
熱度排序
在對所有內容做好向量圖規劃后，會依據不同展現需求做圖切割。對達到閾值的內容做熱度排序，主要通過用戶對內容的喜歡，轉發等交互，以及小編的評分來考究這方面的加權，對排序靠前的內容在無用戶興趣指向性等推薦位進行展現，比方說發現墻，針對有興趣指向性的內容在原圖切割的基礎上再做好排序，這樣就可以在雷達等位置進行有針對性地展現。

“你的數據挖掘！” “是點點的數據挖掘。”

數據挖掘算法在不同的場景下需要做相應的調整，這樣才能很好地適應不同的環境，算法做出的推薦內容也最符合用戶的胃口。特別是點點最初的這一套方案上線運行一段時間后，我們發現熱點數據越來越集中，推薦的效果逐漸變差，同時不利于隱性內容的挖掘。而且在點點更注重的是人與內容的關系，需要提煉人與內容的共性，使兩者更緊密的聚合在一起。人是會變化的，而內容是不變的，所以這里就需要分別對待，對內容的分類處理時效性更長，而對人的分類時效性就會沒那么長。

這世界上唯一不變的就是“變化”

在面對上面的問題時，將后端推薦算法做相應的改進，把用戶的關系網絡以及興趣網絡做了數據分析：

用戶關系模型
用戶的主博客主要體現了線上/線下的好友關系，對于互相follow的情況聚合成用戶關系簇，通過對數據的分析，會發現同一個群體的用戶在關系劃分時會更集中在同一個集合內，同時用戶的交互行為也更加密切，所以當出現新用戶在做博客推薦的時候就可以通過查找好友的好友來促進用戶生成自己的圈子。提高用戶的粘性，隨后通過分析單向follow關系來考查用戶興趣圈子。
用戶興趣模型
用戶的興趣圈子與關系圈子最大的區別在于它會隨著時間推移在不斷地改變，在不同的階段，每個人的興趣愛好也在發生著變化。如果在這時做推薦還是基于歷史所有的數據，那未免會讓用戶有“這個推薦以前不是挺好的么，現在怎么越來越差了”的想法。所以在做推薦的時候，需要把有時效性的數據獨立出來考慮，這里還需要有折中，如果時間選擇的太短，那數據量小就會波動特別大，如果時間選擇的太長，那實時性又得不到保證。在這里我們選擇時效性就需要依據不同的內容。點點里對“滑雪”這類的內容歸類為“seasonally”，而“閱讀”就歸類為“decade”（同時歸在這一類的還有攝影等...），同時還對一級子類進行細分，比方說在“音樂”類別下的“搖滾”就歸類為“yearly”。這樣對人做分類時，他的歷史數據就可以有不同的權重，然而上文已經把內容做好了分類，如此這般就可以提高推薦算法的精確度。

在“變化”這個話題里還有一類的變化時效性更高，它已經有別于“興趣”，那就是位置數據。在移動互聯網火地燒屁股的當下，如何高效地利用用戶的碎片時間，提高即時的數據推薦的準確性也是正在內部研究的一個方向，包括用戶到達一個商區后是提高美食的內容還是電影影評？這些算法都基于事先把內容分好類（省下了很多的計算量），然后通過用戶的一兩個關鍵信息做出實時準確推薦等。

我知道你想知道你不知道的東西

一個社區的好壞，能否留住新用戶，很大一部分關系就在于顯性內容的優質程度，一個新用戶進來一看，哇，都是喜歡的好東西。贊！那他就會不自覺地看看這，點點那，增加在社區停留的時間，才有可能深入體驗產品細節。所以很多社區都在做的一件事，就是隱性內容的挖掘，每個社區都或多或少地有些人力貢獻在尋找隱性高品質內容上面，而把不那么優秀的數據權重調低，相信在運營了一些時日的網站里都已經沉淀了很多很好的數據，那么如何把老數據展現給用戶呢？如果是個新聞，那就沒有重現天日的價值了，如果是一個游記，那就有很高的價值再次推薦給用戶看，在這里再次出現了“時間”的概念，所以把內容和人做區別處理， “時間”標簽打在“人”身上是很有必要的，這樣內容就更多地與時間無關，只要是用戶沒看過的內容，多一次展現機會又何妨？

數據挖掘與推薦是個很有趣的話題，在這里淺顯地分享些SNS數據挖掘的思路，避開枯燥無味的公式和理論，點點也還有很長的路要走，歡迎對這方面有興趣的朋友一起交流。

關鍵詞：點點網 sns

成人午夜激情影院,小视频免费在线观看,国产精品夜夜嗨,欧美日韩精品一区二区在线播放