【7-28】[CFP] 2018機器閱讀理解技術競賽
文章來源:中國中文信息學會 | 發布時間:2018-03-22 | 【打印】 【關閉】
2018機器閱讀理解技術競賽
2018 NLP Challenge on Machine Reading Comprehension
注冊開放: 2018年3月1日
注冊網站: http://mrc2018.cipsc.org.cn/.English Version
2018機器閱讀理解技術競賽由中國中文信息學會(CIPS)和中國計算機學會(CCF)聯合主辦,百度公司、中國中文信息學會評測工作委員會和計算機學會中文信息技術專委會聯合承辦。競賽將于2018年3月1日正式開啟報名通道,獲勝團隊將分享總額10萬人民幣的獎金,并將在第三屆“語言與智能高峰論壇”舉辦技術交流和頒獎。在此,誠邀學術界和工業界的研究者和開發者參加本次競賽!
競賽背景
中國中文信息學會和中國計算機學會于2016年和2017年聯合發起了兩屆“語言與智能高峰論壇”,邀請了國內外相關領域、學術界和工業界的知名專家學者,共同探討語言與智能領域的新發展和新技術。第三屆“語言與智能高峰論壇”將于2018年7月28日在北京召開,除向社會公眾介紹國際語言與智能及相關領域的發展趨勢和創新成果外,本屆會議還將舉辦機器閱讀理解技術競賽,進一步推動語言與智能領域的技術交流和發展。
機器閱讀理解(Machine Reading Comprehension) 研究近年來受到廣泛關注,任務通常定義為:讓機器閱讀文本,然后回答和閱讀內容相關的問題。閱讀理解涉及到語言理解、知識推理、摘要生成等復雜技術,極具挑戰。該任務的研究對于智能搜索、智能推薦、智能交互等人工智能應用具有重要意義,是自然語言處理和人工智能領域的重要前沿課題。為了促進閱讀理解技術的發展,本次競賽將提供面向真實應用場景的大規模中文閱讀理解數據集,為研究者提供學術交流平臺,旨在進一步提升閱讀理解的研究水平,推動語言理解和人工智能領域技術研究和應用的發展。
競賽任務描述
對于給定問題q及其對應的文本形式的候選文檔集合D=d1, d2, ..., dn,要求參評閱讀理解系統自動對問題及候選文檔進行分析,輸出能夠滿足問題的文本答案a。目標是a能夠正確、完整、簡潔地回答問題q。
◇ 輸入/輸出
輸入:問題q及其對應的候選文檔集合D
輸出:滿足用戶問題q的文本答案a
◇ 數據集
競賽數據集包含30萬來自百度搜索的真實問題,每個問題對應5個候選文檔文本,以及人工撰寫的優質答案。數據集劃分為28萬的訓練集,1萬開發集和1萬測試集。該數據集中包含了DuReader中已發布的20萬問題數據,可自由下載(下載地址)用于預訓練和測試。競賽報名團隊將獲得新增的10萬問題數據集。
◇ 評價方法
基于測試集的人工標注答案,采用ROUGH-L和BLEU作為評價指標。全部測試集結果(即主任務)作為最終評價結果。
◇ 基線系統
競賽將提供兩個開源的閱讀理解基線系統,基線系統的實現及結果評價請參考:開源系統和數據集論文。
獎項設置
競賽將評出一等獎1名,二等獎2名,三等獎3名,主辦方中國中文信息學會和中國計算機學會(CCF)將為獲獎者提供榮譽證書認證。同時,百度將為獲獎者提供獎金和參會交流贊助。
◇ 一等獎: 50,000 +榮譽證書
◇ 二等獎: 20,000 +榮譽證書
◇ 三等獎: 3,000 +榮譽證書
重要時間
◇ 2018/3/1: 啟動競賽報名,競賽平臺開放,發放樣例數據;
◇ 2018/3/31: 報名截止,對報名者發放全部訓練數據;
◇ 2018/4/23: 發放測試數據;
◇ 2018/4/30: 系統結果提交截止;
◇ 2018/5/15: 公布競賽結果,接收系統報告和論文;
◇ 2018/7/28: 在“語言與智能高峰論壇”上交流和頒獎。
競賽組織
主辦方: 中國中文信息學會,中國計算機學會
組織方
● 百度公司
● 中國中文信息學會評測工委會
● 中國計算機學會中文信息技術專委會
指導委員會
● 孫 樂 中國科學院軟件技術研究所
● 周 明 微軟亞洲研究院
● 楊爾弘 北京語言大學
● 趙東巖 北京大學
● 吳 華 百度公司
評測委員會
● 呂雅娟 百度公司
● 韓先培 中國科學院軟件研究所
● 萬小軍 北京大學
● 劉 凱 百度公司
注冊報名
正式報名:競賽網站將于2018年3月1日正式開放注冊報名,請及時關注。正式報名并最終提交有效結果的團隊每位成員均將獲得一件大賽定制紀念T恤。
參賽注冊網址: http://mrc2018.cipsc.org.cn/
聯系我們
任何與本次技術競賽相關的問題,請隨時聯系競賽會務組。
競賽會務組郵箱: MRC2018@126.com