以人工智能在內(nèi)容安全領(lǐng)域的鑒黃應(yīng)用為例,我們看網(wǎng)易云是如何研發(fā)和解決具體問題的。
從人工到智能,互聯(lián)網(wǎng)鑒黃歷經(jīng)三個發(fā)展階段
從人工到機(jī)器,再到智能是很多工作或者產(chǎn)業(yè)歷經(jīng)的發(fā)展階段,連“鑒黃”也不例外。在十余年前,互聯(lián)網(wǎng)剛起步的時候,UGC內(nèi)容還不夠多,當(dāng)時識別黃圖的做法簡單粗暴:人工查刪。“別小看了這個方法,其實(shí)針對當(dāng)時的網(wǎng)絡(luò)環(huán)境(帶寬小,產(chǎn)品少,圖片數(shù)據(jù)也少),效果還是很不錯的。一天幾萬的圖片量,安排幾個人肉眼盯著看,發(fā)現(xiàn)有不良的圖片人工刪掉就好了”,網(wǎng)易云安全(易盾)CTO朱浩齊說。
此后,隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)產(chǎn)品普及率大大提升,網(wǎng)絡(luò)數(shù)據(jù)量暴增,一個產(chǎn)品一天出現(xiàn)幾百萬的圖片量實(shí)屬常見,靠堆人力完成內(nèi)容審核已經(jīng)難以為繼。“再說,互聯(lián)網(wǎng)產(chǎn)品也支撐不起幾百上千審核人員的成本。幸好相應(yīng)的計算機(jī)視覺技術(shù)也有進(jìn)步了,我們用膚色識別算法過濾掉大部分‘黃色’內(nèi)容的圖片,剩下的再進(jìn)入到人工審核,可以大大節(jié)約審核量”,朱浩齊說。據(jù)統(tǒng)計,經(jīng)過機(jī)器膚色識別過濾后大約只有20%的圖片還需要人工審核。
不過,移動互聯(lián)網(wǎng)時代又提出了新的挑戰(zhàn):各種類型的網(wǎng)絡(luò)數(shù)據(jù)量再次暴增,人工審核連20%的數(shù)據(jù)量也無法承受了,加上視頻、直播等業(yè)務(wù)和數(shù)據(jù)的爆發(fā)式增長,互聯(lián)網(wǎng)界迫切需要一個更加有效的方案來解決審核的問題。可喜的是,人工智能深度學(xué)習(xí)技術(shù)在這個階段也有了長足的進(jìn)步。
“我們緊跟人工智能的技術(shù)熱潮,很早開始了研發(fā)機(jī)器學(xué)習(xí)的鑒黃系統(tǒng),并且取得了顯著成果”,網(wǎng)易云安全CTO朱浩齊表示。目前,網(wǎng)易云安全(易盾)已經(jīng)面向企業(yè)市場,每天會為中國的互聯(lián)網(wǎng)過濾1億條左右的有害信息。
人工智能鑒黃的三步:定義、學(xué)習(xí)、建模
“辨別一張圖是不是黃圖,從機(jī)器學(xué)習(xí)的角度看,本質(zhì)上是一個分類問題:給定一張圖片,讓機(jī)器判斷是不是黃圖”,朱浩齊介紹,技術(shù)層面要做的就是研發(fā)一個“分類器”,讓它根據(jù)輸入的圖片計算出該圖片屬于“黃圖”類別的概率,然后再根據(jù)這個概率值輸出一個“是”或者“否”的結(jié)果。
眾所周知,電腦擅長的是數(shù)學(xué)運(yùn)算,所以黃圖“分類器”需要先抽象成某種數(shù)學(xué)模型,這樣才有可能用電腦來運(yùn)算。“為了方便理解,我們把數(shù)學(xué)模型定義為:y=f(x)。即給定圖片x,我們要找到一個函數(shù)f,通過計算f(x)可以得到這個圖片的黃圖概率y”,朱浩齊說,這看上去非常簡單,但既然要教機(jī)器分類,還需要有明確的分類標(biāo)準(zhǔn),就是給“黃圖”下個準(zhǔn)確的定義。
“這個過程是非常復(fù)雜的,因為黃圖并不是簡單的露點(diǎn)就是黃圖了,還包括不露點(diǎn)的色情、以及低俗圖片,另外還要排除雕塑、藝術(shù)作品等”,據(jù)朱浩齊介紹,有了定義之后,下一步就是根據(jù)定義來收集樣本數(shù)據(jù)。“幸好網(wǎng)易在20年的發(fā)展中,多領(lǐng)域的產(chǎn)品線通過審核工作積累了大量的圖片數(shù)據(jù),我們從里面篩選出部分圖片作為訓(xùn)練的數(shù)據(jù)”,這個工作消耗了大量的時間和人力成本,并且還一直在持續(xù)進(jìn)行中。
圖片訓(xùn)練的目的就是為了得到數(shù)學(xué)模型y=f(x)中的f,技術(shù)上稱之為特征提取。近些年來,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型在各種圖像識別的比賽中獲得了突破性的進(jìn)展。網(wǎng)易云安全(易盾)同樣選用了CNN(卷積神經(jīng)網(wǎng)絡(luò))、GoogLeNet、ResNet(殘差網(wǎng)絡(luò))三種深度網(wǎng)絡(luò)模型結(jié)構(gòu)作為研究的基礎(chǔ)。通過這些模型,可以更加高效地把圖片數(shù)據(jù)轉(zhuǎn)變成了可以運(yùn)算的數(shù)學(xué)模型,以便更快更好地得到f。
“我們經(jīng)過不斷迭代和算法調(diào)參,得到了越來越精準(zhǔn)的f(模型),在驗證圖集上也達(dá)到了99.9%以上的準(zhǔn)確率,并且我們的技術(shù)仍在進(jìn)化”,朱浩齊說。目前,除了智能鑒黃,網(wǎng)易云安全(易盾)同時開放有廣告過濾、暴恐識別、謠言檢測等內(nèi)容安全服務(wù),驗證碼、營銷反作弊、應(yīng)用加固等業(yè)務(wù)安全服務(wù),以及DDoS 防護(hù)、SSL 證書管理等網(wǎng)絡(luò)安全服務(wù)。