成人午夜激情影院,小视频免费在线观看,国产精品夜夜嗨,欧美日韩精品一区二区在线播放

透視百度技術紅利:何以從中文快速遷移至葡語?

2014-07-25 10:49:23來源:威易網作者:

一周前,在大國外交護航、兩國元首啟動、巴西產業全方位合作的支持下,百度以一種新的姿態進軍巴西,改變了以往互聯網公司出海的路徑,象征著中國也開始從資源型、勞務型輸出向技術型輸出之路邁進。

百度股價又創52周新高。

一周前,在大國外交護航、兩國元首啟動、巴西產業全方位合作的支持下,百度以一種新的姿態進軍巴西,改變了以往互聯網公司出海的路徑,象征著中國也開始從資源型、勞務型輸出向技術型輸出之路邁進。在過去,由于存在文化差異的巨大鴻溝和國際巨頭的先發優勢,互聯網公司出海,要么是選擇以投資方式收購海外團隊,要么是采取邊緣化戰略做海外巨頭忽視的工具類產品。

\

百度(BIDU)今日股價。近期百度股價一路飆升,市值已超700億美元。

因此,要推出與本地化網絡及文化相關度很高、且有Google這類巨頭占據先機的搜索引擎產品,其難度可謂相當大,百度此次發布葡語搜索讓人看到其強大的技術力量,而且更重要的一點是,不僅僅是葡語,百度已經從中文搜索迅速的遷移到了泰語、阿拉伯語,這更讓人看到其背后的技術力量能產生的想象空間,這些想象空間得到華爾街的追捧,目前百度股價為200.12美元,市值超過700億美元。

那是什么能讓百度快速遷移新語種搜索?背后有哪些技術上的支持?百度葡語搜索將與Google有怎樣的抗衡?

如何做到快速遷移?

搜索引擎有兩個層面的核心技術,第一層面是首先要收錄和索引內容,通過搜索引擎的爬蟲不斷的將網絡的內容抓取、分析、處理、排序,這是基礎,相當于建立一個會不斷自我完善的圖書館,第二層面是讀懂用戶的搜索需求,從用戶在框里的輸入理解其真實的搜索目的,然后根據其目的展現收錄的內容。

要實現國際化的擴張和語種的快速遷移,必須要為不同語言建立一個好用的圖書館,人們在搜索時,能夠最快得到自己想要的結果,同時,只要這個語言的網站有對應的結果,還不會被漏掉,這是搜索引擎最本質的需求。要做到這個基礎,在百度,實際是由一個簡稱WD的技術部門來實現的,全稱互聯網數據研發部。

它關鍵做三件事情:

一是資源收錄,就是把相應語言的網站資源進行抓取,抓取技術通用性較高,能夠快速遷移到不同語言。

二是數據挖掘,也就是通過頁面特征分析,來計算頁面的權重、價值從而進行排序。這一點是搜索好壞的關鍵,如何讀懂資源并打上正確的屬性標簽,并根據PageRank的算法進行評分,將決定搜索的質量。

三是結構化數據分析。也就是把互聯網的數據按一定規則解析提取, 比如把影視站點的視頻名字、長度以及檢索需要的數據快速拿出來,以結構化形式展現,做到這個就最終能夠形成知識圖譜。

經過長期的積累,WD在這三個層次的技術領域,已經形成了一個通用的架構,它的底層邏輯不再按語言體系來區分,在抓取、收錄、分析、結構化、排序、打分等各個環節,核心算法邏輯和數據模型是相同的,只需要針對不同國家的法律法規、互聯網生態做一些調優,讓基礎數據模型更符合這個國家特性就可以了。

詳細的來說,百度WD在架構方面擁有支持多語言的通用基礎架構,實現了多語種基礎

服務;在策略上,資源收錄、編碼識別、網頁分類體系、網頁結構化抽取、頁面/站點價值計算等搜索引擎所需要的基礎特征方向,WD也擁有跨語言的通用挖掘技術,進而能結合本地化特色實現快速策略插拔,優化模型,滿足最優的本地化搜索需要。

以阿拉伯語為例,它的文字是反著寫的,其次它的字節與中文或英文是很不一樣的,但掌握了語言的核心邏輯以后,后續的數據處理、頁面分析、排序、結構化其實是類似的。經過阿拉伯語、泰語對這套通用技術的錘煉,百度的葡語搜索僅用了不到一年的時間,各項指標就達到了Google的水準。

有了這套經過驗證的體系,跨一個語系已經對百度沒有太多的難度,相信未來百度還會不斷的推出新的語言的搜索。這為百度的國際化策略打下了堅實基礎。

如何與Google抗衡?

在中文領域,百度的搜索能力已經超越Google,但是在國外的環境下,百度不再具備文字的優勢,甚至而言,Google對英文的熟悉在葡語、西班牙語等語系中更占優,那百度如何與之抗衡?

一是搜索的核心指標上不輸Google。覆蓋率是衡量搜索引擎效果的重要量化效果之一,體現搜索引擎資源“全”,提升覆蓋率最大的難點在于資源的抓取。對于巴西來說,Google和百度都是外來者,其資源的公開度也是一致的。百度WD針對葡語不同站點個性化的選擇,解決地域適配問題,對葡語資源能夠準確、完整的收錄,支撐覆蓋率效果的穩步提升。所以從技術上來講,百度Google并沒有差別,索引量和覆蓋率上應該都是一個量級的。此外,百度在多語種編碼識別準確率也略高一籌。

而在低質評估方面,百度WD價值判斷團隊,針對葡語網頁中上百類屬性,建立特定的策略模型,對頁面價值建立價值體系,反饋系統,確保葡語搜索展現低質保持在較低水平,首頁搜索結果中對用戶沒價值的結果比例,百度的指標甚至已經超越Google。

二是搜索算法的差異化方面具有特色。相對而言,Google進入的國家較多,其強大的話語權優勢使得其算法會相對統一,而百度在競爭中會更強調本地化特色,目前針對不同國家都會有一些量身定制的東西,比如阿拉伯語,由于諸多原因阿拉伯國家網民更喜歡用論壇,百度會加大論壇的權重或者會更多考慮這個論壇的用戶。

三是提供開放合作的阿拉丁平臺。阿拉丁平臺是非常有特色的一項技術,它能夠滿足用戶不再點擊網頁跳轉訪問服務,而是直接在搜索結果頁面中直接使用服務,非常便捷省時,在國內我就非常喜歡用這種方式來查快遞、做翻譯甚至聽音樂。這項服務需要搜索引擎和本地服務上的無間合作,在巴西市場,百度已經和其本地資源提供商建立了戰略合作伙伴關系,由他們通過“阿拉丁”為百度提供結構化數據。在用戶搜索黃金價格、客戶服務號碼或者彩票中獎號碼時,直接在搜索結果頁面頂部為其提供答案。同時,百度也在開發交互性更強的搜索引擎。例如,用戶在搜索流行歌曲或真人秀之后可以直接通過我們的搜索結果頁面投票選出最喜愛的歌手。

此外,百度WD也非常重視技術專利的申請,僅2014年上半年,該團隊已經申請了大量技術專利,其中在知識圖譜應用,結構化數據挖掘,鏈接關系,數據挖掘對應的推薦上都有較多專利申請。

可以說,過去百度積累的基礎技術正在慢慢釋放發展紅利,其核心能力架構構成了國際化擴張的基礎,其差異化的特色業務又構成了與國際巨頭抗衡的砝碼,這些技術能力帶來了巨大的國際化想象空間,這些或許就是股價創新高背后的邏輯。

關鍵詞:百度技術紅利

贊助商鏈接:

主站蜘蛛池模板: 正定县| 信宜市| 玉门市| 都江堰市| 蒲江县| 青川县| 桐柏县| 瑞金市| 嵊州市| 卓尼县| 泰宁县| 卓尼县| 丰原市| 高淳县| 长沙县| 巴青县| 米脂县| 德昌县| 通城县| 长泰县| 崇文区| 广饶县| 绿春县| 承德县| 方山县| 河津市| 镇坪县| 郎溪县| 若尔盖县| 高唐县| 甘洛县| 罗定市| 亳州市| 永嘉县| 肇东市| 武宁县| 东山县| 寻甸| 平顶山市| 文安县| 阳城县|