8月14日,創(chuàng)新工場、搜狗和今日頭條聯(lián)合宣布三方攜手發(fā)起 “AI Challenger全球AI挑戰(zhàn)賽”。 本次競賽三方聯(lián)合旨在打造中國最大的科研數(shù)據(jù)集與世界級AI競賽平臺,推動中國人工智能領(lǐng)域科研創(chuàng)新。據(jù)悉,大賽第一年啟動將開放超過1000萬條中英文翻譯數(shù)據(jù)、70萬個人體動作分析標(biāo)注數(shù)據(jù)、30萬張圖片場景標(biāo)注和語義描述數(shù)據(jù),是國內(nèi)迄今公開的規(guī)模最大的科研數(shù)據(jù)集;诖舜伍_放的數(shù)據(jù)集,AI Challenger全球挑戰(zhàn)賽面向全球AI科研人才廣發(fā)英雄帖,致力于促進人工智能行業(yè)向更為開放、融合以及國際化的方向發(fā)展。
在人工智能領(lǐng)域,數(shù)據(jù)的質(zhì)和量是科學(xué)研究與產(chǎn)品技術(shù)研發(fā)的核心。高質(zhì)量訓(xùn)練數(shù)據(jù)對機器學(xué)習(xí)模型的建立和優(yōu)化有關(guān)鍵性的作用。建立大規(guī)模、高水準(zhǔn)的標(biāo)注數(shù)據(jù)集,是推動AI科研和技術(shù)前進的驅(qū)動力。此次創(chuàng)新工場、搜狗、今日頭條三方聯(lián)手,在發(fā)布會上共同宣布 "AI Challenger 全球AI挑戰(zhàn)賽" 的社會責(zé)任宣言:“數(shù)據(jù)、算法、計算能力是人工智能的三大基石,其中,數(shù)據(jù)更是人工智能科研的最寶貴資產(chǎn)。沒有足夠好的數(shù)據(jù),就無法取得世界頂級的科研成果。在此方面,學(xué)術(shù)界和創(chuàng)業(yè)團隊所能獲得的數(shù)據(jù)資源通常遠少于產(chǎn)業(yè)界中的頂級企業(yè)。因此,將高質(zhì)量的數(shù)據(jù)集建設(shè)與科學(xué)研究、技術(shù)產(chǎn)品研發(fā)、人才培養(yǎng)有效結(jié)合,對人工智能發(fā)展具有重大意義,也是身為產(chǎn)業(yè)先驅(qū)應(yīng)盡的一份社會責(zé)任。”
創(chuàng)新工場,搜狗與今日頭條是國內(nèi)最專注于人工智能領(lǐng)域的三家公司,創(chuàng)新工場作為業(yè)內(nèi)最早在人工智能領(lǐng)域布局的投資機構(gòu)之一,自2016年下旬成立人工智能工程院,積極推動AI的研究與技術(shù)朝向產(chǎn)業(yè)實踐轉(zhuǎn)化。搜狗是最先將人工智能技術(shù)應(yīng)用落地的互聯(lián)網(wǎng)公司,語音、圖像識別,自然語言理解,機器翻譯等技術(shù)均已應(yīng)用于搜狗相關(guān)產(chǎn)品當(dāng)中,包括搜狗搜索,輸入法,機器同傳等產(chǎn)品,在產(chǎn)業(yè)實踐中積累了大量語音、文本、圖像、視頻等數(shù)據(jù)集,同時沉淀了深厚的計算機視覺、自然語言理解、數(shù)據(jù)挖掘等方面的技術(shù)能量。今日頭條同樣是最早一批將人工智能技術(shù)應(yīng)用于產(chǎn)品的公司,也是把算法、工程、產(chǎn)品、運營在人工智能應(yīng)用層面結(jié)合得最好的一家公司,在產(chǎn)業(yè)實踐中積累了大量文本、圖像、視頻等數(shù)據(jù)集,并沉淀了深厚的計算機視覺、自然語言理解、數(shù)據(jù)挖掘等方面的技術(shù)能量。AI Challenger全球AI挑戰(zhàn)賽的誕生,也是三方拿出實際行動推動人工智能行業(yè)發(fā)展一次意義重大的集體宣誓。
對于發(fā)起本次合作,創(chuàng)新工場董事長暨CEO、創(chuàng)新工場人工智能工程院院長李開復(fù)表示:“在30多年前自己作為AI科研人員的時代,能接觸到真實世界的海量數(shù)據(jù)是個遙不可及的夢想。如今,伴隨互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)而來的大數(shù)據(jù)、高效的計算機運算能力等條件都齊備的環(huán)境下,有了AI Challenger這樣的開放數(shù)據(jù)集和競賽平臺對于AI科研與開發(fā)人員是個難得的契機。AI Challenger致力于解決數(shù)據(jù)集缺失的問題,為人工智能科研免費提供海量數(shù)據(jù),輔以強大的學(xué)術(shù)界和產(chǎn)業(yè)界專家指導(dǎo),全力支持國內(nèi)外的高校、研究機構(gòu)、產(chǎn)業(yè)界科研人才一起來挑戰(zhàn)人工智能的未來可能性。”
搜狗CEO王小川表示:“人工智能本質(zhì)是建立在大數(shù)據(jù)和機器學(xué)習(xí)的基礎(chǔ)之上。目前,搜狗以語言為核心的人工智能技術(shù),已經(jīng)通過問答、語音和翻譯等形態(tài)應(yīng)用于搜狗搜索和輸入法等諸多產(chǎn)品中,并積累的大量的用戶與數(shù)據(jù)規(guī)模。其中搜狗的語音輸入日頻次已達2.6億次;搜狗的實時機器翻譯技術(shù)也在包括烏鎮(zhèn)世界互聯(lián)網(wǎng)大會等數(shù)百場會議上進行了落地應(yīng)用。我們希望能夠利用搜狗的優(yōu)質(zhì)數(shù)據(jù)和應(yīng)用場景助力AI Challenger全球AI挑戰(zhàn)賽,讓全球科研工作者取得更大的成就與突破,一起推動人工智能行業(yè)更快、更好地發(fā)展。”
今日頭條顧問、技術(shù)戰(zhàn)略研究院院長張宏江表示:“依托大數(shù)據(jù)和人工智能技術(shù),今日頭條希望實現(xiàn)更高效的信息流動。身處人工智能行業(yè),我們深知,人才和數(shù)據(jù)是整個行業(yè)的未來。這次頭條與搜狗、創(chuàng)新工場聯(lián)合舉辦AI Challenger挑戰(zhàn)賽的初衷,就是希望通過開放數(shù)據(jù),吸引更多優(yōu)秀人才參與到算法模型的開發(fā)、設(shè)計中來。比賽結(jié)束后,所有數(shù)據(jù)集會向社會全面開放,我們希望盡一些微薄的力量,為學(xué)術(shù)界、學(xué)術(shù)人才提供幫助,加強產(chǎn)學(xué)研結(jié)合,共同推動中國人工智能行業(yè)的發(fā)展。”
此次三方聯(lián)合開放的AI Challenger數(shù)據(jù)集涵蓋多個領(lǐng)域,包括最大規(guī)模的人體骨骼關(guān)鍵點數(shù)據(jù)集(用于無人駕駛、安防、體感游戲等場景)、最大規(guī)模的圖像中文描述數(shù)據(jù)集(用于圖像和視頻內(nèi)容理解、圖像標(biāo)題自動生成等各類應(yīng)用)、最大規(guī)模的口語領(lǐng)域英中翻譯數(shù)據(jù)集(用于同聲傳譯等自然語言處理的各類應(yīng)用)等。2017年競賽將區(qū)分為五個競賽任務(wù)供參賽者組隊報名,設(shè)有共計200萬元人民幣的獎金池。自9月5日起開放參賽隊伍線上進行數(shù)據(jù)集下載,三個月競賽持續(xù)直到12月。參賽的優(yōu)秀選手還可獲得進入三家主辦方工作、實習(xí)或獲得投資的機會,并有機會在國際頂級學(xué)術(shù)會議上分享獲獎心得,得到如上海科技大學(xué)教授馬毅、曠視科技首席科學(xué)家孫劍、前Google研究院高級管理科學(xué)家林德康等十余位人工智能領(lǐng)域頂級專家評委的指導(dǎo)和評價。未來,“AI Challenger·全球AI挑戰(zhàn)賽”將持續(xù)投入,建設(shè)和發(fā)布更大規(guī)模的AI前沿領(lǐng)域高質(zhì)量數(shù)據(jù)集,擴大涵蓋自動駕駛、智慧醫(yī)療、智慧金融、機器人等行業(yè)應(yīng)用中的核心AI需求。
上月,舉辦了八屆的ImageNet挑戰(zhàn)賽由創(chuàng)始人之一李飛飛博士正式宣布退出歷史舞臺。國際上,ImageNet挑戰(zhàn)賽曾是每年企業(yè)和研究者都極為看重的活動。另一機器學(xué)習(xí)競賽平臺Kaggle著眼于真實數(shù)據(jù)和真實問題的解決方案,同樣吸引了全球?qū)⒔偃f數(shù)據(jù)科學(xué)家和研究者進行挑戰(zhàn)和探索其多元化的公開數(shù)據(jù)集。創(chuàng)新工場、搜狗、今日頭條三方計劃在未來三年間投入數(shù)千萬規(guī)模的資金,不斷完善平臺的建設(shè)、擴大數(shù)據(jù)集的規(guī)模,期許AI Challenger在三年內(nèi)打造來自中國的世界級AI開放數(shù)據(jù)和競賽平臺,成為推進全球人工智能研究和產(chǎn)業(yè)前進的新引擎。
更多AI Challenger詳情與賽事說明參見官網(wǎng):challenger.ai
2017首屆“AI Challenger全球AI挑戰(zhàn)賽”賽事說明
一、賽程安排
2017年9月4日-2017年9月24日:
平臺會在9月4日10:00開放訓(xùn)練數(shù)據(jù)集以及驗證數(shù)據(jù)集,參賽選手可以自行下載數(shù)據(jù),在本地進行算法設(shè)計、模型訓(xùn)練及評估。
2017年9月25日-2017年12月3日:
(1)平臺會在9月25日10:00開放測試數(shù)據(jù)集A集,參賽選手可自行下載數(shù)據(jù),在本地使用先前訓(xùn)練的模型進行預(yù)測,生成預(yù)測結(jié)果并提交至平臺。結(jié)果提交后,系統(tǒng)會按照評測指標(biāo)實時反饋分?jǐn)?shù),并更新榜單排名。
(2)每隊每周最多可提交2次(不同比賽提交次數(shù)會有調(diào)整)。
(3) 榜單以所有參賽隊伍的歷史最優(yōu)成績進行排名。當(dāng)有團隊提交新的預(yù)測結(jié)果之后,榜單將實時更新。最終的成績排名以12月3日23:59:59的排名為準(zhǔn)。
雙周賽:
從9月25日至11月20日期間,組委會將舉辦4次雙周賽。10月9日將公布第一次雙周賽排名前三的隊伍,頒發(fā)獎金及證書。之后每兩周公布一次排名前三的隊伍名單,一共頒發(fā)四次雙周獎。雙周賽的排名將以10月8日、10月22日、11月5日、以及11月19日當(dāng)晚23:59:59的成績榜單排名為準(zhǔn)。
測試數(shù)據(jù)集B集:
最終榜單公布前,公布測試數(shù)據(jù)集B集,具體開放時間待定。B集開放之后,成績榜單將采用選手模型在測試數(shù)據(jù)集的B集上的預(yù)測結(jié)果表現(xiàn),作為排名依據(jù)。
2017年12月3日:
預(yù)測結(jié)果提交截止。最終的榜單成績排名以12月3日23:59:59的排名為準(zhǔn)。本次榜單決定場景分類競賽年度的獲獎隊伍,其他競賽將進入到下一輪的答辯環(huán)節(jié)。
2017年12月16日(暫定):
(1)人體骨骼關(guān)鍵點檢測、圖像中文描述、英中機器文本翻譯、英中機器同聲傳譯四個競賽系統(tǒng)最后一次榜單成績排名前五的隊伍將在當(dāng)天受邀來到現(xiàn)場進行答辯,特殊情況可以遠程答辯,具體安排另行通知。
(2)參賽隊伍應(yīng)提前準(zhǔn)備答辯材料,包括PPT、算法代碼等。
(3)榜單成績和答辯成績的加權(quán)總成績將決出這四個競賽最終的大獎。同時,五個競賽的冠亞季軍及獲得優(yōu)勝獎的隊伍將受邀來到現(xiàn)場參加頒獎典禮。
評分規(guī)則
本次大賽將以最終榜單排名結(jié)合答辯表現(xiàn),加權(quán)計算總成績,決出最終的大獎。
競賽的測試數(shù)據(jù)將分為A、B集兩部分。A集部分將在9月25日開放下載,在B集部分開放之前,榜單將采用選手模型在測試數(shù)據(jù)集的A集上的預(yù)測結(jié)果,作為排名依據(jù)。
B集部分預(yù)計在11月下旬開放,具體開放時間待定。B集開放之后,榜單將采用選手模型在測試數(shù)據(jù)集的B集上的預(yù)測結(jié)果,作為排名依據(jù)。最終的榜單成績排名以12月3日23:59:59的排名為準(zhǔn)。
報名方式
- (1) 報名時間:即日起至10月31日。競賽報名以及組隊隊員變更截止時間為10月31日23:59:59。
- (2) 參賽隊伍可1-3人組隊參賽,確保報名信息準(zhǔn)確有效。每名選手在大賽平臺只能擁有一個賬號,否則會被取消參賽資格及激勵。
- (3) 實名認證:為保證大賽公平性,所有選手必須完成個人信息實名認證。認證過程在個人中心的實名認證區(qū)域完成。
- (4) 報名方式:登入challenger.ai官網(wǎng),完成個人信息注冊,即可報名參賽。
- (5) 參賽隊員必須遵守并簽署《競賽選手報名協(xié)議》。
組隊規(guī)則
參賽隊伍可1-3人組隊參賽,競賽報名以及組隊隊員變更截止時間為10月31日23:59:59。在10月31日前,參賽選手可自行選擇退出原隊伍或加入新隊伍,但隊員原先成績不帶入新加入隊伍,以新加入隊伍的成績?yōu)闇?zhǔn)。
二、參賽對象
大賽面向全社會開放,個人、高等院校、科研單位、互聯(lián)網(wǎng)企業(yè)、創(chuàng)客團隊等人員均可報名參賽。創(chuàng)新工場、搜狗、今日頭條現(xiàn)任全職及兼職員工,數(shù)據(jù)集建立及維護過程中能接觸到數(shù)據(jù)的人員不得參賽。
三、獎金池設(shè)置
總獎金池超過200萬元人民幣,具體分配比例見各競賽詳細說明。
四、各競賽及數(shù)據(jù)集詳細說明
(一)計算機視覺賽道
1、人體骨骼關(guān)鍵點檢測競賽
賽題介紹
人體骨骼關(guān)節(jié)點對于描述人體姿態(tài)、預(yù)測人體行為至關(guān)重要,是諸多計算機視覺任務(wù)和人工智能應(yīng)用的基礎(chǔ)。本次競賽邀請參賽者設(shè)計算法與模型,對自然圖像中可見的人體骨骼關(guān)節(jié)點進行檢測。
組委會將通過計算參賽者提交的檢測結(jié)果與真實標(biāo)注之間的相似性(OKS),并結(jié)合答辯表現(xiàn),綜合評估參賽者的算法模型。
本次競賽的研究成果可以被直接應(yīng)用于動作分類和識別,動作捕捉,圖像和視頻內(nèi)容理解,人機交互,自動駕駛(行人動作和意圖識別),安防(異常行為檢測),無人零售(消費者行為理解)等領(lǐng)域。
數(shù)據(jù)集特色
作為人物動作理解的基礎(chǔ)數(shù)據(jù)集,此次發(fā)布的人體骨骼關(guān)鍵點數(shù)據(jù)集是目前規(guī)模最大,場景、人物動作及身體遮擋情況最復(fù)雜的數(shù)據(jù)集。此數(shù)據(jù)集標(biāo)注了共30萬張圖片,包含了超過100種復(fù)雜生活場景內(nèi)的實際人物動作與姿態(tài),標(biāo)注人物個數(shù)達到70萬量級,遠超過MSCOCO的10萬人,以及MPII的4萬人量級。該數(shù)據(jù)集將挑戰(zhàn)現(xiàn)有主流算法的魯棒性。
獎勵
- 冠軍隊伍將獲得30萬元人民幣的獎金
- 亞軍隊伍將獲得3萬元人民幣的獎金
- 季軍隊伍將獲得1.5萬元人民幣的獎金
另有若干獎項如優(yōu)秀獎及雙周獎等,詳見網(wǎng)站對應(yīng)競賽頁面的詳細說明。
2、圖像中文描述競賽
賽題介紹
圖像中文描述問題融合了計算機視覺與自然語言處理兩個方向,是用人工智能算法解決多模式、跨領(lǐng)域問題的典型代表。參賽者需要對給定的每一張測試圖片輸出一句話的描述。描述句子要求符合自然語言習(xí)慣,點明圖像中的重要信息,涵蓋主要人物、場景、動作等內(nèi)容。此次發(fā)布的圖像描述數(shù)據(jù)集以中文描述語句為主,與同類科研任務(wù)常見的英文數(shù)據(jù)集相比,中文描述通常在句法、詞法上靈活度較大,算法實現(xiàn)的挑戰(zhàn)也較大。
組委會將通過客觀指標(biāo)(BLEU, METEOR, ROUGE-L和CIDEr)并結(jié)合答辯表現(xiàn),綜合評估參賽者的算法模型。
本次競賽的研究成果可以被直接應(yīng)用于圖像與視頻語義理解、圖像與視頻自動標(biāo)注、圖像與視頻內(nèi)容檢索、人工智能輔助教育、機器人視覺、盲人輔助等人工智能相關(guān)領(lǐng)域。
數(shù)據(jù)集特色
圖像中文描述數(shù)據(jù)集,是計算機視覺與自然語言處理兩個學(xué)科的交叉結(jié)晶。該數(shù)據(jù)集是目前規(guī)模最大、場景和語言使用最豐富的圖片中文描述數(shù)據(jù)集,使用了超過100種復(fù)雜生活場景的含有人物的圖片,其場景復(fù)雜度、人物動作復(fù)雜度、身體遮擋情況都高于現(xiàn)有的其他數(shù)據(jù)集;而且,此數(shù)據(jù)集的語言描述標(biāo)注更符合中文語言使用習(xí)慣。
相對于MSCOCO和Flickr8k-CN,在完整描述圖片主體事件的基礎(chǔ)之上,該數(shù)據(jù)集創(chuàng)新性的引入了形容詞和中文成語,用以修飾圖片中的主要人物及背景事件,大大提升了描述語句的豐富度。同時,本數(shù)據(jù)集的30萬圖片標(biāo)注量將遠遠大于Flickr8k-CN(8000張圖)。巨大的數(shù)據(jù)量和復(fù)雜的圖片場景將直接挑戰(zhàn)現(xiàn)有算法的可用性。
獎勵
冠軍隊伍將獲得30萬元人民幣的獎金
亞軍隊伍將獲得3萬元人民幣的獎金
季軍隊伍將獲得1.5萬元人民幣的獎金
另有若干獎項如優(yōu)秀獎及雙周獎等,詳見網(wǎng)站對應(yīng)競賽頁面的詳細說明。
3、場景分類競賽
賽題介紹
本次場景分類競賽從400萬張互聯(lián)網(wǎng)圖片上精選出10萬張圖片,分屬于80個日常場景類別。每個場景類別包含大約1000張圖片。要求參賽選手根據(jù)圖片場景數(shù)據(jù)集建立算法,預(yù)測每張圖片所屬的場景類別,組委會將通過計算參賽者提交預(yù)測值和場景真實值之間的誤差確定預(yù)測準(zhǔn)確率,評估所提交的預(yù)測算法。
獎勵
- 冠軍隊伍將獲得10萬元人民幣的獎金
- 亞軍隊伍將獲得1萬元人民幣的獎金
- 季軍隊伍將獲得0.5萬元人民幣的獎金
另有若干獎項如優(yōu)秀獎及雙周獎等,詳見網(wǎng)站對應(yīng)競賽頁面的詳細說明。
(二)機器翻譯賽道
數(shù)據(jù)集特色
本次公開的機器翻譯的訓(xùn)練數(shù)據(jù)為英中方向的高質(zhì)量、大規(guī)模的口語領(lǐng)域的數(shù)據(jù)。訓(xùn)練數(shù)據(jù)全部經(jīng)過譯員檢查和矯正,句正確率在97%以上,英中雙語句對對照工整、質(zhì)量高、噪音低,F(xiàn)有中英機器翻譯評測比賽采用有效數(shù)據(jù)從30萬(例如,The International Workshop on Spoken Language Translation)到900萬(例如,Chinese Workshop on Machine Translation)不等。而此次采用的訓(xùn)練數(shù)據(jù)量達到1000萬句對,是最大規(guī)模的口語領(lǐng)域英中比賽數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)領(lǐng)域性強,面向口語領(lǐng)域。
1、 英中機器文本翻譯競賽
賽題介紹
英中機器翻譯競賽的目標(biāo)是評測各家英中文本機器翻譯的能力。本次文本機器翻譯語言方向為英文到中文。參賽隊伍需要根據(jù)評測方提供的數(shù)據(jù),訓(xùn)練機器翻譯系統(tǒng),并且自由地選擇機器翻譯技術(shù)。例如,基于規(guī)則的翻譯技術(shù)、基于實例的翻譯技術(shù)、統(tǒng)計機器翻譯及神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)等。
本次競賽將利用機器翻譯的客觀考核指標(biāo)(BLEU、NIST score、TER)進行評分,BLEU得分會作為主要的機器評價指標(biāo)。組委會將通過客觀指標(biāo),并結(jié)合答辯表現(xiàn),綜合評估參賽者的算法模型。
本次競賽的研究成果可以被直接應(yīng)用于機器翻譯尤其是口語機器翻譯等領(lǐng)域。
獎勵
- 冠軍隊伍將獲得30萬元人民幣的獎金
- 亞軍隊伍將獲得3萬元人民幣的獎金
- 季軍隊伍將獲得1.5萬元人民幣的獎金
另有若干獎項如優(yōu)秀獎及雙周獎等,詳見網(wǎng)站對應(yīng)競賽頁面的詳細說明。
2、 英中機器同聲傳譯競賽
賽題介紹
本次英中機器競賽主要任務(wù)為集中優(yōu)化語音識別后處理和機器翻譯模塊,解決機器同聲傳譯中的技術(shù)問題。語言翻譯方向為英文到中文。
相對于傳統(tǒng)的機器文本翻譯系統(tǒng),機器同聲傳譯的輸入文本,暨語音識別模塊的輸出信息具有無標(biāo)點、無斷句、文本口語化以及夾雜語氣詞等特點。這一系列特點將為基于書面風(fēng)格的傳統(tǒng)翻譯系統(tǒng)帶來極大干擾和挑戰(zhàn),因此選手首先需要設(shè)計多種策略,制作語音識別后處理模塊,將語音識別后的文本,處理為可用于翻譯的文本。隨后,調(diào)用自己訓(xùn)練的機器翻譯系統(tǒng),將識別后處理的文本翻譯成目標(biāo)語言。評測方將提供數(shù)據(jù)用以訓(xùn)練機器翻譯系統(tǒng),選手可以自由地選擇機器翻譯技術(shù)。
本次競賽將利用機器翻譯的指標(biāo)(BLEU、NIST score、TER)進行評分,BLEU得分會作為主要的機器評價指標(biāo),同時結(jié)合答辯表現(xiàn),綜合評估參賽者的算法模型。
本次競賽的研究成果可以被直接應(yīng)用于機器翻譯特別是同聲傳譯類應(yīng)用。
獎勵
- 冠軍隊伍將獲得40萬元人民幣的獎金
- 亞軍隊伍將獲得4萬元人民幣的獎金
- 季軍隊伍將獲得2萬元人民幣的獎金
另有若干獎項如優(yōu)秀獎及雙周獎等,詳見網(wǎng)站對應(yīng)競賽頁面的詳細說明。