中文互联网语料库CCI 2.0发布,涵盖1.25亿个网页

2024年04月30日05:02:24 科技 2336

4月25日,2024中关村论坛年会开幕。4月27日,在作为本届中关村论坛活动之一的数据安全治理与发展论坛上,北京智源人工智能研究院正式发布了中文互联网语料库cci 2.0(简称cci)。

智源研究院副院长兼总工程师林咏华介绍,经过严格的清洗和筛选后,cci的规模约为500gb,涵盖1.25亿个网页。

中文互联网语料库CCI 2.0发布,涵盖1.25亿个网页 - 天天要闻

▲智源研究院牵头建设的数据集“共建-共享”平台 受访者供图 

林咏华介绍,中文互联网语料库cci是由智源研究院联合多家数据贡献单位构建的高质量、可信数据集,于2023年11月首次开源,当时为cci 1.0,旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动大数据和人工智能领域的健康发展。

据介绍,在中国网络空间安全协会人工智能安全治理工作委员会等的推动下,智源研究院与多家企业经过四个月的努力,共收集约8tb互联网数据,通过严格的清洗和筛选,形成了超过500gb的高质量“中文互联网语料库”cci 2.0,数据类型全面、质量较高、安全可信,包括网页、公众号、博客、百科、问答、试题等。

红星新闻记者了解到,为保障cci 2.0的合规性和高质量,智源研究院对总量为8tb的原始互联网数据进行了严格的清洗、过滤等处理。例如会对原始数据进行去除表情符号、去除控制字符与特殊字符、去除个人隐私等处理。

林咏华介绍,数据是生成式人工智能发展的重要生产要素,数据的质量与安全也是下游人工智能模型的性能与应用安全性的决定性因素之一,智源研究院将持续与多家单位共同为中文领域增添更多高质量、符合安全要求的数据集。一方面联合共建单位扩充数据来源,另一方面创新数据处理方法与流程,提升数据清洗与过滤的效率和可靠性。

红星新闻记者了解到,目前智源研究院联合多家企业单位成立数据集工作组,打造的是“贡献-共享”的数据运营方式。例如制定数据“共建-共享”积分机制,推动数据集工作组可持续发展。林咏华说,智源研究院与数据集工作组成员单位共同探讨并制定了数据“贡献-共享”积分机制,对贡献数据的20余家单位进行初步评分,对普通互联网数据、稀缺数据进行分类评价,涵盖格式合规、来源可信、覆盖站源等评分维度。

红星新闻记者 付垚 实习生 史子潇 北京报道

编辑 郭庄 责编 李彬彬

科技分类资讯推荐

续航王者vivo Y200系列掀起购机狂潮,618购机可享多重福利优惠 - 天天要闻

续航王者vivo Y200系列掀起购机狂潮,618购机可享多重福利优惠

智能手机的选择五花八门,但有一条赛道被vivo独占,那就是长续航。刚刚发布的vivo Y200系列凭借其超长的续航能力和轻薄的设计,一经推出便受到广大用户的关注和好评,彻底改变了行业续航的基准线。如今Y200系列新品已正式开启预售及首销,期间购机可享多重福利优惠。
【现场】人工关节集采续约开标:企业代表“不紧张”,多家报价压线进 - 天天要闻

【现场】人工关节集采续约开标:企业代表“不紧张”,多家报价压线进

界面新闻记者 | 唐卓雅界面新闻编辑 | 谢欣5月21日,国家组织人工关节集中带量采购协议期满接续采购(下称“人工关节续采”)在天津东丽湖恒大酒店国际会议中心开标。此次续标的产品范围与2021年的首轮集采相同,包括髋关节(陶瓷-陶瓷类、陶瓷-聚乙烯类和合金-聚乙烯类)和膝关节,采购周期由两年延长为三年,采购需求量为...
产品经理谈一谈:水果店应该怎么开 - 天天要闻

产品经理谈一谈:水果店应该怎么开

这几年,不少人都计划着整个副业,或者以后被毕业了去做什么。有准备摆摊的,有准备开咖啡店开书店的,也有人准备开水果店的。只是工作这么久了,相关的经验能否平移过去?如果用产品思维来看,我们做一个店面,需要怎么做呢?
OPPO Reno12系列:AI技术让每张合照都无可挑剔 - 天天要闻

OPPO Reno12系列:AI技术让每张合照都无可挑剔

5月21日,知名博主@老师好我叫何同学在微博上发布了一张闭眼的照片,并暗示OPPO Reno12系列可能带来了解决闭眼合照废片的新功能。这一消息迅速引发了科技爱好者和广大网友的广泛关注。
近4000万人围观,雷军直播又刷屏了 - 天天要闻

近4000万人围观,雷军直播又刷屏了

还记得2023年年底,蔚来汽车创始人、董事长兼CEO李斌在挑战电动车1000公里真实续航的直播测试中说过:“所有CEO都应该亲自直播做续航测试。”今年以来,车企大佬们似乎正在以实际行动回应李斌。不仅低调如长城汽车董事长魏建军、奇瑞集团党委书记、董事长尹同跃等行业前辈开启了直播首秀,刚刚踏入车圈的小米集团创始人、董...
周鸿祎现身京东谈AI,直播超500万人围观,正打造“红衣客厅” - 天天要闻

周鸿祎现身京东谈AI,直播超500万人围观,正打造“红衣客厅”

据央广网报道:5月20日,360集团创始人周鸿祎现身京东,与京东集团首席执行官许冉进行了一场轻松又深刻的直播对谈。京东立足产业端,做出不少扎实的AI应用。周鸿祎则利用个人影响力,持续为产业AI摇旗呐喊。两人的对谈,碰撞出对AI产业应用的诸多洞察。(图源:央广网)AI能否创造下一次工业革命?周鸿祎在前不久探访美国时...
大模型价格战白热化 通义千问主力模型降价97% - 天天要闻

大模型价格战白热化 通义千问主力模型降价97%

5月21日,阿里云抛出重磅炸弹:通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。这意味着,1块钱可以买200万tokens,相当于5本《新华字典》的文字量。