8月14日,創新工場、搜狗和今日頭條聯合宣布三方攜手發起 “AI Challenger全球AI挑戰賽”。 本次競賽三方聯合旨在打造中國最大的科研數據集與世界級AI競賽平臺,推動中國人工智能領域科研創新。據悉,大賽第一年啟動將開放超過1000萬條中英文翻譯數據、70萬個人體動作分析標注數據、30萬張圖片場景標注和語義描述數據,是國內迄今公開的規模最大的科研數據集。基于此次開放的數據集,AI Challenger全球挑戰賽面向全球AI科研人才廣發英雄帖,致力于促進人工智能行業向更為開放、融合以及國際化的方向發展。
在人工智能領域,數據的質和量是科學研究與產品技術研發的核心。高質量訓練數據對機器學習模型的建立和優化有關鍵性的作用。建立大規模、高水準的標注數據集,是推動AI科研和技術前進的驅動力。此次創新工場、搜狗、今日頭條三方聯手,在發布會上共同宣布 "AI Challenger 全球AI挑戰賽" 的社會責任宣言:“數據、算法、計算能力是人工智能的三大基石,其中,數據更是人工智能科研的最寶貴資產。沒有足夠好的數據,就無法取得世界頂級的科研成果。在此方面,學術界和創業團隊所能獲得的數據資源通常遠少于產業界中的頂級企業。因此,將高質量的數據集建設與科學研究、技術產品研發、人才培養有效結合,對人工智能發展具有重大意義,也是身為產業先驅應盡的一份社會責任。”

創新工場,搜狗與今日頭條是國內最專注于人工智能領域的三家公司,創新工場作為業內最早在人工智能領域布局的投資機構之一,自2016年下旬成立人工智能工程院,積極推動AI的研究與技術朝向產業實踐轉化。搜狗是最先將人工智能技術應用落地的互聯網公司,語音、圖像識別,自然語言理解,機器翻譯等技術均已應用于搜狗相關產品當中,包括搜狗搜索,輸入法,機器同傳等產品,在產業實踐中積累了大量語音、文本、圖像、視頻等數據集,同時沉淀了深厚的計算機視覺、自然語言理解、數據挖掘等方面的技術能量。今日頭條同樣是最早一批將人工智能技術應用于產品的公司,也是把算法、工程、產品、運營在人工智能應用層面結合得最好的一家公司,在產業實踐中積累了大量文本、圖像、視頻等數據集,并沉淀了深厚的計算機視覺、自然語言理解、數據挖掘等方面的技術能量。AI Challenger全球AI挑戰賽的誕生,也是三方拿出實際行動推動人工智能行業發展一次意義重大的集體宣誓。

對于發起本次合作,創新工場董事長暨CEO、創新工場人工智能工程院院長李開復表示:“在30多年前自己作為AI科研人員的時代,能接觸到真實世界的海量數據是個遙不可及的夢想。如今,伴隨互聯網和移動互聯網而來的大數據、高效的計算機運算能力等條件都齊備的環境下,有了AI Challenger這樣的開放數據集和競賽平臺對于AI科研與開發人員是個難得的契機。AI Challenger致力于解決數據集缺失的問題,為人工智能科研免費提供海量數據,輔以強大的學術界和產業界專家指導,全力支持國內外的高校、研究機構、產業界科研人才一起來挑戰人工智能的未來可能性。”

搜狗CEO王小川表示:“人工智能本質是建立在大數據和機器學習的基礎之上。目前,搜狗以語言為核心的人工智能技術,已經通過問答、語音和翻譯等形態應用于搜狗搜索和輸入法等諸多產品中,并積累的大量的用戶與數據規模。其中搜狗的語音輸入日頻次已達2.6億次;搜狗的實時機器翻譯技術也在包括烏鎮世界互聯網大會等數百場會議上進行了落地應用。我們希望能夠利用搜狗的優質數據和應用場景助力AI Challenger全球AI挑戰賽,讓全球科研工作者取得更大的成就與突破,一起推動人工智能行業更快、更好地發展。”

今日頭條顧問、技術戰略研究院院長張宏江表示:“依托大數據和人工智能技術,今日頭條希望實現更高效的信息流動。身處人工智能行業,我們深知,人才和數據是整個行業的未來。這次頭條與搜狗、創新工場聯合舉辦AI Challenger挑戰賽的初衷,就是希望通過開放數據,吸引更多優秀人才參與到算法模型的開發、設計中來。比賽結束后,所有數據集會向社會全面開放,我們希望盡一些微薄的力量,為學術界、學術人才提供幫助,加強產學研結合,共同推動中國人工智能行業的發展。”
此次三方聯合開放的AI Challenger數據集涵蓋多個領域,包括最大規模的人體骨骼關鍵點數據集(用于無人駕駛、安防、體感游戲等場景)、最大規模的圖像中文描述數據集(用于圖像和視頻內容理解、圖像標題自動生成等各類應用)、最大規模的口語領域英中翻譯數據集(用于同聲傳譯等自然語言處理的各類應用)等。2017年競賽將區分為五個競賽任務供參賽者組隊報名,設有共計200萬元人民幣的獎金池。自9月5日起開放參賽隊伍線上進行數據集下載,三個月競賽持續直到12月。參賽的優秀選手還可獲得進入三家主辦方工作、實習或獲得投資的機會,并有機會在國際頂級學術會議上分享獲獎心得,得到如上海科技大學教授馬毅、曠視科技首席科學家孫劍、前Google研究院高級管理科學家林德康等十余位人工智能領域頂級專家評委的指導和評價。未來,“AI Challenger·全球AI挑戰賽”將持續投入,建設和發布更大規模的AI前沿領域高質量數據集,擴大涵蓋自動駕駛、智慧醫療、智慧金融、機器人等行業應用中的核心AI需求。
上月,舉辦了八屆的ImageNet挑戰賽由創始人之一李飛飛博士正式宣布退出歷史舞臺。國際上,ImageNet挑戰賽曾是每年企業和研究者都極為看重的活動。另一機器學習競賽平臺Kaggle著眼于真實數據和真實問題的解決方案,同樣吸引了全球將近百萬數據科學家和研究者進行挑戰和探索其多元化的公開數據集。創新工場、搜狗、今日頭條三方計劃在未來三年間投入數千萬規模的資金,不斷完善平臺的建設、擴大數據集的規模,期許AI Challenger在三年內打造來自中國的世界級AI開放數據和競賽平臺,成為推進全球人工智能研究和產業前進的新引擎。
更多AI Challenger詳情與賽事說明參見官網:challenger.ai
2017首屆“AI Challenger全球AI挑戰賽”賽事說明
一、賽程安排
2017年9月4日-2017年9月24日:
平臺會在9月4日10:00開放訓練數據集以及驗證數據集,參賽選手可以自行下載數據,在本地進行算法設計、模型訓練及評估。
2017年9月25日-2017年12月3日:
(1)平臺會在9月25日10:00開放測試數據集A集,參賽選手可自行下載數據,在本地使用先前訓練的模型進行預測,生成預測結果并提交至平臺。結果提交后,系統會按照評測指標實時反饋分數,并更新榜單排名。
(2)每隊每周最多可提交2次(不同比賽提交次數會有調整)。
(3) 榜單以所有參賽隊伍的歷史最優成績進行排名。當有團隊提交新的預測結果之后,榜單將實時更新。最終的成績排名以12月3日23:59:59的排名為準。
雙周賽:
從9月25日至11月20日期間,組委會將舉辦4次雙周賽。10月9日將公布第一次雙周賽排名前三的隊伍,頒發獎金及證書。之后每兩周公布一次排名前三的隊伍名單,一共頒發四次雙周獎。雙周賽的排名將以10月8日、10月22日、11月5日、以及11月19日當晚23:59:59的成績榜單排名為準。
測試數據集B集:
最終榜單公布前,公布測試數據集B集,具體開放時間待定。B集開放之后,成績榜單將采用選手模型在測試數據集的B集上的預測結果表現,作為排名依據。
2017年12月3日:
預測結果提交截止。最終的榜單成績排名以12月3日23:59:59的排名為準。本次榜單決定場景分類競賽年度的獲獎隊伍,其他競賽將進入到下一輪的答辯環節。
2017年12月16日(暫定):
(1)人體骨骼關鍵點檢測、圖像中文描述、英中機器文本翻譯、英中機器同聲傳譯四個競賽系統最后一次榜單成績排名前五的隊伍將在當天受邀來到現場進行答辯,特殊情況可以遠程答辯,具體安排另行通知。
(2)參賽隊伍應提前準備答辯材料,包括PPT、算法代碼等。
(3)榜單成績和答辯成績的加權總成績將決出這四個競賽最終的大獎。同時,五個競賽的冠亞季軍及獲得優勝獎的隊伍將受邀來到現場參加頒獎典禮。
評分規則
本次大賽將以最終榜單排名結合答辯表現,加權計算總成績,決出最終的大獎。
競賽的測試數據將分為A、B集兩部分。A集部分將在9月25日開放下載,在B集部分開放之前,榜單將采用選手模型在測試數據集的A集上的預測結果,作為排名依據。
B集部分預計在11月下旬開放,具體開放時間待定。B集開放之后,榜單將采用選手模型在測試數據集的B集上的預測結果,作為排名依據。最終的榜單成績排名以12月3日23:59:59的排名為準。
報名方式
- (1) 報名時間:即日起至10月31日。競賽報名以及組隊隊員變更截止時間為10月31日23:59:59。
- (2) 參賽隊伍可1-3人組隊參賽,確保報名信息準確有效。每名選手在大賽平臺只能擁有一個賬號,否則會被取消參賽資格及激勵。
- (3) 實名認證:為保證大賽公平性,所有選手必須完成個人信息實名認證。認證過程在個人中心的實名認證區域完成。
- (4) 報名方式:登入challenger.ai官網,完成個人信息注冊,即可報名參賽。
- (5) 參賽隊員必須遵守并簽署《競賽選手報名協議》。
組隊規則
參賽隊伍可1-3人組隊參賽,競賽報名以及組隊隊員變更截止時間為10月31日23:59:59。在10月31日前,參賽選手可自行選擇退出原隊伍或加入新隊伍,但隊員原先成績不帶入新加入隊伍,以新加入隊伍的成績為準。
二、參賽對象
大賽面向全社會開放,個人、高等院校、科研單位、互聯網企業、創客團隊等人員均可報名參賽。創新工場、搜狗、今日頭條現任全職及兼職員工,數據集建立及維護過程中能接觸到數據的人員不得參賽。
三、獎金池設置
總獎金池超過200萬元人民幣,具體分配比例見各競賽詳細說明。
四、各競賽及數據集詳細說明
(一)計算機視覺賽道
1、人體骨骼關鍵點檢測競賽
賽題介紹
人體骨骼關節點對于描述人體姿態、預測人體行為至關重要,是諸多計算機視覺任務和人工智能應用的基礎。本次競賽邀請參賽者設計算法與模型,對自然圖像中可見的人體骨骼關節點進行檢測。
組委會將通過計算參賽者提交的檢測結果與真實標注之間的相似性(OKS),并結合答辯表現,綜合評估參賽者的算法模型。
本次競賽的研究成果可以被直接應用于動作分類和識別,動作捕捉,圖像和視頻內容理解,人機交互,自動駕駛(行人動作和意圖識別),安防(異常行為檢測),無人零售(消費者行為理解)等領域。
數據集特色
作為人物動作理解的基礎數據集,此次發布的人體骨骼關鍵點數據集是目前規模最大,場景、人物動作及身體遮擋情況最復雜的數據集。此數據集標注了共30萬張圖片,包含了超過100種復雜生活場景內的實際人物動作與姿態,標注人物個數達到70萬量級,遠超過MSCOCO的10萬人,以及MPII的4萬人量級。該數據集將挑戰現有主流算法的魯棒性。
獎勵
- 冠軍隊伍將獲得30萬元人民幣的獎金
- 亞軍隊伍將獲得3萬元人民幣的獎金
- 季軍隊伍將獲得1.5萬元人民幣的獎金
另有若干獎項如優秀獎及雙周獎等,詳見網站對應競賽頁面的詳細說明。
2、圖像中文描述競賽
賽題介紹
圖像中文描述問題融合了計算機視覺與自然語言處理兩個方向,是用人工智能算法解決多模式、跨領域問題的典型代表。參賽者需要對給定的每一張測試圖片輸出一句話的描述。描述句子要求符合自然語言習慣,點明圖像中的重要信息,涵蓋主要人物、場景、動作等內容。此次發布的圖像描述數據集以中文描述語句為主,與同類科研任務常見的英文數據集相比,中文描述通常在句法、詞法上靈活度較大,算法實現的挑戰也較大。
組委會將通過客觀指標(BLEU, METEOR, ROUGE-L和CIDEr)并結合答辯表現,綜合評估參賽者的算法模型。
本次競賽的研究成果可以被直接應用于圖像與視頻語義理解、圖像與視頻自動標注、圖像與視頻內容檢索、人工智能輔助教育、機器人視覺、盲人輔助等人工智能相關領域。
數據集特色
圖像中文描述數據集,是計算機視覺與自然語言處理兩個學科的交叉結晶。該數據集是目前規模最大、場景和語言使用最豐富的圖片中文描述數據集,使用了超過100種復雜生活場景的含有人物的圖片,其場景復雜度、人物動作復雜度、身體遮擋情況都高于現有的其他數據集;而且,此數據集的語言描述標注更符合中文語言使用習慣。
相對于MSCOCO和Flickr8k-CN,在完整描述圖片主體事件的基礎之上,該數據集創新性的引入了形容詞和中文成語,用以修飾圖片中的主要人物及背景事件,大大提升了描述語句的豐富度。同時,本數據集的30萬圖片標注量將遠遠大于Flickr8k-CN(8000張圖)。巨大的數據量和復雜的圖片場景將直接挑戰現有算法的可用性。
獎勵
冠軍隊伍將獲得30萬元人民幣的獎金
亞軍隊伍將獲得3萬元人民幣的獎金
季軍隊伍將獲得1.5萬元人民幣的獎金
另有若干獎項如優秀獎及雙周獎等,詳見網站對應競賽頁面的詳細說明。
3、場景分類競賽
賽題介紹
本次場景分類競賽從400萬張互聯網圖片上精選出10萬張圖片,分屬于80個日常場景類別。每個場景類別包含大約1000張圖片。要求參賽選手根據圖片場景數據集建立算法,預測每張圖片所屬的場景類別,組委會將通過計算參賽者提交預測值和場景真實值之間的誤差確定預測準確率,評估所提交的預測算法。
獎勵
- 冠軍隊伍將獲得10萬元人民幣的獎金
- 亞軍隊伍將獲得1萬元人民幣的獎金
- 季軍隊伍將獲得0.5萬元人民幣的獎金
另有若干獎項如優秀獎及雙周獎等,詳見網站對應競賽頁面的詳細說明。
(二)機器翻譯賽道
數據集特色
本次公開的機器翻譯的訓練數據為英中方向的高質量、大規模的口語領域的數據。訓練數據全部經過譯員檢查和矯正,句正確率在97%以上,英中雙語句對對照工整、質量高、噪音低。現有中英機器翻譯評測比賽采用有效數據從30萬(例如,The International Workshop on Spoken Language Translation)到900萬(例如,Chinese Workshop on Machine Translation)不等。而此次采用的訓練數據量達到1000萬句對,是最大規模的口語領域英中比賽數據集。訓練數據領域性強,面向口語領域。
1、 英中機器文本翻譯競賽
賽題介紹
英中機器翻譯競賽的目標是評測各家英中文本機器翻譯的能力。本次文本機器翻譯語言方向為英文到中文。參賽隊伍需要根據評測方提供的數據,訓練機器翻譯系統,并且自由地選擇機器翻譯技術。例如,基于規則的翻譯技術、基于實例的翻譯技術、統計機器翻譯及神經網絡機器翻譯技術等。
本次競賽將利用機器翻譯的客觀考核指標(BLEU、NIST score、TER)進行評分,BLEU得分會作為主要的機器評價指標。組委會將通過客觀指標,并結合答辯表現,綜合評估參賽者的算法模型。
本次競賽的研究成果可以被直接應用于機器翻譯尤其是口語機器翻譯等領域。
獎勵
- 冠軍隊伍將獲得30萬元人民幣的獎金
- 亞軍隊伍將獲得3萬元人民幣的獎金
- 季軍隊伍將獲得1.5萬元人民幣的獎金
另有若干獎項如優秀獎及雙周獎等,詳見網站對應競賽頁面的詳細說明。
2、 英中機器同聲傳譯競賽
賽題介紹
本次英中機器競賽主要任務為集中優化語音識別后處理和機器翻譯模塊,解決機器同聲傳譯中的技術問題。語言翻譯方向為英文到中文。
相對于傳統的機器文本翻譯系統,機器同聲傳譯的輸入文本,暨語音識別模塊的輸出信息具有無標點、無斷句、文本口語化以及夾雜語氣詞等特點。這一系列特點將為基于書面風格的傳統翻譯系統帶來極大干擾和挑戰,因此選手首先需要設計多種策略,制作語音識別后處理模塊,將語音識別后的文本,處理為可用于翻譯的文本。隨后,調用自己訓練的機器翻譯系統,將識別后處理的文本翻譯成目標語言。評測方將提供數據用以訓練機器翻譯系統,選手可以自由地選擇機器翻譯技術。
本次競賽將利用機器翻譯的指標(BLEU、NIST score、TER)進行評分,BLEU得分會作為主要的機器評價指標,同時結合答辯表現,綜合評估參賽者的算法模型。
本次競賽的研究成果可以被直接應用于機器翻譯特別是同聲傳譯類應用。
獎勵
- 冠軍隊伍將獲得40萬元人民幣的獎金
- 亞軍隊伍將獲得4萬元人民幣的獎金
- 季軍隊伍將獲得2萬元人民幣的獎金
另有若干獎項如優秀獎及雙周獎等,詳見網站對應競賽頁面的詳細說明。

