7月11日,由極驗主辦的Graph Learning 創新大會暨極驗2019圖數據建模平臺發布會在北京泰富酒店舉行。本次大會邀請到203位行業內頭部企業代表、媒體及嘉賓,一起就當下最火熱的圖神經網絡展開了探討與交流,并共同見證了全國首個自研圖數據建模平臺的首發時刻。
國內首個圖數據建模平臺——疊圖
中國需要技術創新
這是一個產業智能化磅礴而來的時代,企業的發展與數據的聯系愈發緊密,頭條系的算法鑄就了字節跳動的崛起,Deepmind則用AlphaGo 戰勝李世石引爆機器智能的無限可能,阿里與華為分別推出AI芯片,底層支撐也將迎來變革。
而實現智能化的方法有很多種,在過去,企業通過深度學習來訓練神經網絡,但是在關系數據挖掘方面,卻仍很欠缺。圖神經網絡,在關系數據挖掘方面有巨大的潛力,正成為學術界和工業界投入研發的熱點。
AI 時代企業增長突破關鍵
2012 年到 2018 年,短短 6 年時間,AI 技術帶來了很大的變革。比如 CNN 的出現,讓計算機視覺得以突破,刷臉支付,刷臉進站,自動駕駛發展的非常迅速;RNN 讓自然語言處理有了很大的進步,像機器翻譯,智能助手這些應用都日趨成熟。
但是,這個世界所產生的數據,不只是圖像或者語音,更多的是具有特定關系的關系數據。根據 BCG 的報告顯示,進入互聯網時代之后,企業所產生的數據急劇增加,但是被有效利用起來的不過 40% 。
這其中有一個很重要的原因是關系數據沒有被有效利用。數據作為 AI 的燃料,未被有效利用起來是企業不能實現增長突破的關鍵。
圖神經網絡的出現,將充分發揮關系數據的能量,是企業在 AI 場上角逐的另一大機遇。
圖數據建模平臺
如何解決落地難
圖神經網絡出現的很晚,是一個比較新興的技術,它具有很強的能力,包括擬合多類型數據的能力,對關系的學習能力以及邏輯推理能力。如何將這些強大的能力應用到業務中去呢?想要真正實現該技術的落地其實十分困難。
首先是系統的可拓展性,在工業場景中,圖數據都是千萬上億級別的,系統要具備處理大規模數據的能力。其次是 GNN 模型對分布式的高效適應性,大數據的分布式發展到今天已經十分成熟了,但是在處理圖數據上存在兩個問題,第一是圖數據不易切割,第二是圖數據庫由來已久,設計之初是考慮的主要是增刪查改,但是 GNN 的分布式建模更多需要考慮的是對數據特定操作的高效性以及對數據抽取的吞吐率。
極驗花了很多時間來測試和調研,經過在實際業務中的探索和思考,發現要想解決這個難題,就必須從底層去適配數據的存儲方案與操作方式。
定制化的技術架構
可擴展性和高效性是一個系統能夠真正工程化落地的必要條件,極驗在圖數據建模的探索的幾年時間中,充分結合圖數據建模的特點與難點,研發了一套符合建模需求的底層數據引擎。技術框架:
整個技術框架的核心是中間三層,分別是存儲層、操作層和建模層,是極驗針對圖數據的特點定制化開發的。
存儲層與操作層合稱為圖存儲引擎,主要完成對圖數據分布式存儲以及圖數據操作的抽象接口。在這一層的設計上,他們圍繞著圖分區、圖數據的結構設計與存儲,以及整個數據系統的索引設計與優化來做了大量的開發工作,以支撐上層數據操作的高效性,比如隨機游走、子圖采樣等。
在模型層,采用的是 Message Passing 機制,同時由于下層支持對數據高效地操作,所以極驗有更多的空間去完成 GCN 對屬性圖的適配工作。
性能指標展示:
不到 20s 就可以完成百萬節點構圖,對于1億節點,5億邊規模的數據,在10個 worker上構圖時間只需要150s。在讀的性能上,測試了子圖采樣的性能,在這項指標上,極驗將時間控制在100ms之下, 達到這樣的效率,顯卡就不會出現計算延時的情況。
產品為企業帶來的價值
疊圖是首個支持企業級圖數據深度學習的建模平臺,為企業提供一站式的建模服務。在 SAAS 服務模式越來越流行的今天,做金融、做零售、做醫療的企業完全沒有必要花巨大的精力從底層一步一步搭建平臺,這其中耗費的資源成本、人力成本、時間成本都不可小覷。細化分工,讓專業的人做專業的事情是我們整個社會不斷進步,生產力不斷提升的重要前提。
降低企業的應用門檻
疊圖集成了大規模圖數據分布式建模能力,提供 Web 端操作,企業可以直接上手就用,不需要專家也可以建模。其次將整個建模流程固化到平臺上,后期模型的維護成本也大大降低。
疊圖適用的場景多種多樣
今天,幾乎所有的企業都是業務多線發展,可能一個主業務下面,還有好幾個細分業務場景。疊圖完全可以支持企業的多場景需求。
圖數據建模業務效果很突出
今年很流行一個概念叫做技術中臺,數據中臺,意思是將企業各類業務、各類場景的數據集中起來進行數據生產。這是后面兩年一個大的趨勢,圖建模能夠從數據的關聯出發,將各類數據進行整合建模,將很大程度上提升業務效果。
應用場景
圖數據是最能刻畫關系的數據,可以應用的業務場景非常豐富,主要包括風控和營銷兩大類業務場景,賦能全行業。
風險賬戶識別
在極驗深知產品中,已經使用 GCN 模型進行風險賬戶識別。利用賬戶、設備、IP這些數據以及它們的的關聯關系進行構圖,然后將圖輸入到模型中,GCN 自己會學習到一些模式,比如高密的二部圖(如下圖所示)。
GCN的在 AUC 指標上提升了 1.2 倍,魯棒性提升了 1.5 倍也就是模型在一個更新周期內的效果。這說明了用 GCN 做風險識別是一個健康地,可持續性對抗的安全手段。
車險反欺詐
圖數據建模也非常適合車險欺詐檢測。一起車輛事故的數據有很多,比如說車輛損傷的數據,包括褶皺、凹陷、開裂、擦傷等等;車輛的屬性信息,比如每個車都來自不同的廠商,不同的年份,版本也不相同。這些數據之間存在著非常復雜的關系,比如當車輛的發動機損壞的時候,往往也會伴隨著其他的零配件損壞。
而圖是最能夠刻畫關系的數據形式,通過構建車險理賠的圖,利用圖神經網絡,可以很好的發現一些風險模式,比如線上風險,二手車風險,人傷碰瓷,理賠人員問題等等。
在實踐過程中,基本上可以成百倍的提升生產效益,實現大額減損。
企業風險識別
在金融行業,實時判斷貸款企業的風險,及時進行貸款的調整,降低風險也是非常重要的。根據企業的輿論信息,關聯企業信息,股東信息,產業鏈信息等等,構建圖數據,利用圖計算進行輿情熱點分析,企業動態分析,及時的改變針對企業的貸款政策。
AI 下半場的入場券
在數據不斷膨脹的當下和未來,借助圖數據來提升企業的技術實力將會是一個重要解決方案,可以實現行業整體效率的飛躍。
圖計算快速發展。世界上所有的數據都可以表示為圖結構。而圖卷積神經網絡、圖注意力機制、圖自動編碼器、時空圖網絡和圖嵌入等新興技術的研究也在不斷深入。圖結構的關聯性特征與因果關系網絡相結合,有望實現對神經網絡結構可解釋性的證明。
「圖」也在持續賦能各行業。諸如 金融反欺詐、銀行反洗錢、保險反欺詐、企業風控等領域大量應用圖技術,在醫學藥物挖掘、圖像識別、智慧城市等方向的研究也在不斷深入;圖技術可以廣泛應用在挖掘行為異常、構建知識圖譜、推理節點關系等場景。
技術驅動發展,需求創造應用,圖技術領域技術挑戰多、行業需求大。可惜的是,企業都能意識到“圖”的價值,但從零開始研發的金錢、人力、時間成本投入不是誰都能承受。而疊圖的發布將為圖生態的搭建提供關鍵一環。