2022年8月12日起,由Magic Data、好未來、清華大學、中國科學院聲學研究所主辦聯合主辦的 「Magichub中英混ASR挑戰賽」 自開展以來,已經收到三十多支國內外研究機構、知名企業及高校的參賽隊伍註冊報名,包括 荔枝FM、特斯聯、網易遊戲、中移在線、中科院、華中科技大學、中國科學技術大學、西北工業大學、廈門大學、天津大學等。8月24日,主辦方正式向參賽隊伍開放開發訓練集和基線系統。
報名持續進行中
https://magichub.com/join-competition/?id=11627
開發訓練集
主辦方開放了以下訓練與開發數據集:
1、MagicData-RAMC 包括351組多輪普通話對話,時長共計180小時。每組對話的標註信息包括轉錄文本、語音活動時間戳、說話人信息、錄製信息和話題信息。說話人信息包括了性別、年齡和地域,錄製信息包括了環境和設備。請參賽者查看郵件進行數據集下載。
2、TAL_CSASR中英文混合語音數據集,為好未來英語課授課音頻,時長共計587小時。包含中英文混合講話的情況,每條音頻只有一位說話人,共包括超過200名說話人。請參賽者查看郵件進行數據集下載。
3、開發集(Dev),包含14名說話人,總時長約6.8小時。
所有參與者都應遵守以下規則:
1. DATA:只允許使用MagicData-RAMC 和 TAL_CSASR。數據增強可以使用兩個雜訊數據集,即 MUSAN(openslr17), RIRNoise (openslr 28)。
2. 嚴禁以任何形式使用測試集,包括但不限於使用測試數據集對模型進行微調或訓練。
3.允許多系統融合。然而不鼓勵使用具有相同結構的系統進行融合。
4. 所有模型都應在允許的數據集上進行訓練。具體來說,預訓練模型不允許使用其他數據集(包括未標記的數據)。
5、最終解釋權歸主辦方所有。
基線系統介紹
為了幫助參賽者評估系統性能,主辦方提供了基線系統性能供參賽者參考。該系統採用Transformer模型,基於ETEH平台開發。
具體信息請見:
https://github.com/MagicHub-io/CSASR_Challenge
打分工具
使用開源的打分工具Sclite進行打分。評分指標採用混合錯誤率(Mixed Error Rate, MER),即對中文計算字錯誤率、對英文計算詞錯誤率。
打分樣例請見 :
https://github.com/MagicHub-io/CSASR_Challenge/blob/main/dev_scoring_sclite.sh
基線系統答疑指導
對基線系統有任何疑問,請訪問以下鏈接獲取幫助,將有專家團隊給予解答。
答疑直通車:
https://github.com/MagicHub-io/CSASR_Challenge#contact
獎項設置
比賽分別設置一等獎、二等獎和三等獎,將評選出三組獲獎團隊/個人,獲獎者將有機會參加國際及國內頂會的現場演示及交流活動。
一等獎 1名:華為Watch+阿噗筋膜槍(價值3000元)+獲獎證書
二等獎 2名:Magic Data錦鯉大禮包+好未來&凌美聯名鋼筆禮盒(價值1500元)+獲獎證書
三等獎 3名:Magic Data定製禮品+阿噗體重秤(價值500元)+獲獎證書
賽程設置
競賽組委會支持團隊
挑戰賽相關問題,可請發送郵件至 [email protected],郵件標題為「中英混ASR挑戰賽疑問」。疑問將由以下組委會資深技術專家提供專業技術問答和指導。指導專家均在語音領域深耕多年,有著豐富研究和實戰經驗,相信參賽者們在他們的指導下能夠得到啟發與收穫。
報名方式
報名地址:https://magichub.com/join-competition/?id=11627
參賽人數:每隊參賽人數4人以內 (含4人)
更多詳情:www.magichub.com