中文互联网语料库CCI 2.0发布,涵盖1.25亿个网页

2024年04月30日05:02:24 科技 2336

4月25日,2024中关村论坛年会开幕。4月27日,在作为本届中关村论坛活动之一的数据安全治理与发展论坛上,北京智源人工智能研究院正式发布了中文互联网语料库cci 2.0(简称cci)。

智源研究院副院长兼总工程师林咏华介绍,经过严格的清洗和筛选后,cci的规模约为500gb,涵盖1.25亿个网页。

中文互联网语料库CCI 2.0发布,涵盖1.25亿个网页 - 天天要闻

▲智源研究院牵头建设的数据集“共建-共享”平台 受访者供图 

林咏华介绍,中文互联网语料库cci是由智源研究院联合多家数据贡献单位构建的高质量、可信数据集,于2023年11月首次开源,当时为cci 1.0,旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动大数据和人工智能领域的健康发展。

据介绍,在中国网络空间安全协会人工智能安全治理工作委员会等的推动下,智源研究院与多家企业经过四个月的努力,共收集约8tb互联网数据,通过严格的清洗和筛选,形成了超过500gb的高质量“中文互联网语料库”cci 2.0,数据类型全面、质量较高、安全可信,包括网页、公众号、博客、百科、问答、试题等。

红星新闻记者了解到,为保障cci 2.0的合规性和高质量,智源研究院对总量为8tb的原始互联网数据进行了严格的清洗、过滤等处理。例如会对原始数据进行去除表情符号、去除控制字符与特殊字符、去除个人隐私等处理。

林咏华介绍,数据是生成式人工智能发展的重要生产要素,数据的质量与安全也是下游人工智能模型的性能与应用安全性的决定性因素之一,智源研究院将持续与多家单位共同为中文领域增添更多高质量、符合安全要求的数据集。一方面联合共建单位扩充数据来源,另一方面创新数据处理方法与流程,提升数据清洗与过滤的效率和可靠性。

红星新闻记者了解到,目前智源研究院联合多家企业单位成立数据集工作组,打造的是“贡献-共享”的数据运营方式。例如制定数据“共建-共享”积分机制,推动数据集工作组可持续发展。林咏华说,智源研究院与数据集工作组成员单位共同探讨并制定了数据“贡献-共享”积分机制,对贡献数据的20余家单位进行初步评分,对普通互联网数据、稀缺数据进行分类评价,涵盖格式合规、来源可信、覆盖站源等评分维度。

红星新闻记者 付垚 实习生 史子潇 北京报道

编辑 郭庄 责编 李彬彬

科技分类资讯推荐

索尼预计手机市场将重回上坡路 影像传感器收入将大增 - 天天要闻

索尼预计手机市场将重回上坡路 影像传感器收入将大增

【CNMO科技消息】潮电智库数据显示,2023年全球TOP8手机摄像头CMOS出货量逼近40亿,其中,虽然面对着中国CMOS厂商和三星的竞争,但索尼仍然以28%的市场份额,拿下了手机摄像头CMOS销量第一的宝座。而近日,CNMO注意到,索尼预计智能手机市场将重回上坡路,其CMOS业务的收入也将迎来显著增长。索尼预计智能手机市场将重回上...
天狮引领直销数字化革新,全球教育平台再升级 - 天天要闻

天狮引领直销数字化革新,全球教育平台再升级

天狮集团近日举办了备受瞩目的数字化高峰论坛,聚焦直销教育与AI技术的深度融合,为直销行业的未来发展擘画全新蓝图。此次盛会汇聚了众多业内领军人物、技术大咖及市场洞察者,共同探讨如何借助AI力量,推动直销教育培训的数字化与智能化进程。在数字化浪潮的席卷下,直销行业正迎来革命性的变革。作为全球直销领域的佼佼者...
STEELSERIES 赛睿发布全新 arctis nova 5 及配套应用程序,提供 100 多种游戏专用音频配置文件 - 天天要闻

STEELSERIES 赛睿发布全新 arctis nova 5 及配套应用程序,提供 100 多种游戏专用音频配置文件

●全新 Arctis Nova 5 和拥有全球首款 100 多种专业游戏音频预设的配套手机APP,为 Xbox 和 PlayStation 玩家带来与众不同的游戏优势 ;●电竞和游戏外设领域的全球领导者,扩展了屡获殊荣的 Arctis Nova 耳机系列--专为游戏生活方式而设计 ;●Arctis Nova 5 为游戏耳机市场开创了一个全新的 “平价奢华 ”
领夹麦克风什么牌子好,一文看懂无线麦克风一拖二哪个牌子好! - 天天要闻

领夹麦克风什么牌子好,一文看懂无线麦克风一拖二哪个牌子好!

对于初涉VLOG拍摄的新手来说,挑选无线麦克风设备往往是个令人望而却步的环节。面对琳琅满目的设备种类和品牌,许多人往往感到一头雾水,无从下手。为了帮助大家更好地选择适合自己的无线麦克风设备,今天我将为大家整理一些实用的选购建议,希望能对大家有所帮助!一、无线领夹麦克风如何选购?看这!1.舒适轻盈:挑选佩戴...
第一批用 LangChain 的程序员,已经碾压同事了…… | 极客时间 - 天天要闻

第一批用 LangChain 的程序员,已经碾压同事了…… | 极客时间

今年招聘市场确实是好点了,我发现群友都在讨论,得赶快学点 AI 大模型。他们有的是想正式转到一些新兴的 AI 行业,需要系统的学习训练。更多的是想跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。这也可以理解,ChatGPT 推出仅一年半的时间,就将生成式 AI 推向主流。从谷歌到亚马逊,从百度到阿...
4人团队,如何用大模型创造近千万业务价值? - 天天要闻

4人团队,如何用大模型创造近千万业务价值?

采访嘉宾|张源源 百姓车联数据科学与数据平台高级总监编辑 | 李忠良大模型已经融入千行百业,在这个背景下,LLMOps 作为一种新概念,其定义、实践以及应对挑战成为了关注焦点。为了深入探讨 LLMOps 的意义和关键,我们采访了百姓车联数据科学与数据平台高级总监张源源,他分享了 LLMOps 在车损互助案例中的应用以及所面...
法院信息化“法治蓝皮书”发布:人工智能引擎相关能力在法院信息化系统中落地应用 - 天天要闻

法院信息化“法治蓝皮书”发布:人工智能引擎相关能力在法院信息化系统中落地应用

5月16日,中国社会科学院法学研究所、社会科学文献出版社联合主办的“2024年《法治蓝皮书·中国法院信息化发展报告》成果发布会”在京召开。《法治蓝皮书·中国法院信息化发展报告No.8(2024)》(下称《法院信息化蓝皮书》)总结了2023年人民法院信息化取得的进步,并对全国范围法院信息化建设进展情况进行了客观评估。《...