中文互聯網語料庫CCI 2.0發布,涵蓋1.25億個網頁

4月25日,2024中關村論壇年會開幕。4月27日,在作為本屆中關村論壇活動之一的數據安全治理與發展論壇上,北京智源人工智能研究院正式發布了中文互聯網語料庫cci 2.0(簡稱cci)。

智源研究院副院長兼總工程師林詠華介紹,經過嚴格的清洗和篩選後,cci的規模約為500gb,涵蓋1.25億個網頁。

▲智源研究院牽頭建設的數據集“共建-共享”平台 受訪者供圖 

林詠華介紹,中文互聯網語料庫cci是由智源研究院聯合多家數據貢獻單位構建的高質量、可信數據集,於2023年11月首次開源,當時為cci 1.0,旨在為國內大數據及人工智能行業提供一個安全、可靠的語料資源,共同推動大數據和人工智能領域的健康發展。

據介紹,在中國網絡空間安全協會人工智能安全治理工作委員會等的推動下,智源研究院與多家企業經過四個月的努力,共收集約8tb互聯網數據,通過嚴格的清洗和篩選,形成了超過500gb的高質量“中文互聯網語料庫”cci 2.0,數據類型全面、質量較高、安全可信,包括網頁、公眾號、博客、百科、問答、試題等。

紅星新聞記者了解到,為保障cci 2.0的合規性和高質量,智源研究院對總量為8tb的原始互聯網數據進行了嚴格的清洗、過濾等處理。例如會對原始數據進行去除表情符號、去除控制字符與特殊字符、去除個人隱私等處理。

林詠華介紹,數據是生成式人工智能發展的重要生產要素,數據的質量與安全也是下遊人工智能模型的性能與應用安全性的決定性因素之一,智源研究院將持續與多家單位共同為中文領域增添更多高質量、符合安全要求的數據集。一方面聯合共建單位擴充數據來源,另一方面創新數據處理方法與流程,提升數據清洗與過濾的效率和可靠性。

紅星新聞記者了解到,目前智源研究院聯合多家企業單位成立數據集工作組,打造的是“貢獻-共享”的數據運營方式。例如制定數據“共建-共享”積分機制,推動數據集工作組可持續發展。林詠華說,智源研究院與數據集工作組成員單位共同探討並制定了數據“貢獻-共享”積分機制,對貢獻數據的20餘家單位進行初步評分,對普通互聯網數據、稀缺數據進行分類評價,涵蓋格式合規、來源可信、覆蓋站源等評分維度。

紅星新聞記者 付垚 實習生 史子瀟 北京報道

編輯 郭庄 責編 李彬彬