大模型·大未来 “巢燧杯”大模型创新发展大赛今日启动

2024年07月01日12:50:10 动漫 8803

作为生成式人工智能的代表,大模型已经进入全新的发展阶段。

为了实现“以赛聚才、以赛带会,以会促产”,红星新闻、红星资本局与openeval平台联合发起“巢燧杯”大模型创新发展大赛,今日正式启动。

红星资本局注意到,截至2024年年初,国内已有超过200个大模型。在通用大模型之外,各类专注垂直领域的大模型也推动着整个人工智能产业快速发展,甚至在各类产业的升级转型中发挥出了决定性的作用。

大模型·大未来 “巢燧杯”大模型创新发展大赛今日启动 - 天天要闻

采用专属自动测试平台

“以赛代评”助力行业发展

今年3月,国家发展改革委、工业和信息化部等18个部门联合印发《贯彻实施<国家标准化发展纲要>行动计划(2024-2025年)》,其中提到:要在人工智能等关键领域集中攻关,加快研制一批重要技术标准;要聚焦生成式人工智能等领域,前瞻布局未来产业标准研究。

开展大模型基准测试将为大模型技术发展打造“高速高清摄像头”,“捕获”大模型技术发展态势全景图,深化大模型认识,为大模型发展提供基准数据支撑和任务定义,有利于引领大模型技术创新和突破。

天津大学智能与计算学部熊德意教授认为,“通过对开源和闭源大模型进行大规模、多维度基准测试,将精准定位大模型产业发展的技术短板,为大模型技术落地和应用提供诊断分析报告,推动前沿技术与产业发展深度对接;此外,大模型基准测试的开展也能够为人工智能安全治理提供数据资料和技术手段,为大模型安全治理提供重要技术抓手,推进业界形成以评测为基础的大模型负责任发展理念。”

事实上,在2023年,第一届的人工智能大模型基准测试科创发展大会就搭建了openeval平台,该平台是专门为大模型评测研制开发的自动测试平台。

此次大会站在第一届大会成果筑起的高台上,将继续依托openeval平台分赛道对大模型产品进行评测,但相较过往会更进一步探索前沿的模型评测方法,建立大模型评测标准与协议,通过评测标准等引导市面上的大模型高质量发展。

评测标准将指引行业高速发展,评测结果也将助力行业构建全景视图,并推进人工智能领域技术发展与突破。

“巢燧杯”正式启动

分四大赛道展示大模型的能力与价值

“巢燧之前,寂寥无纪;书契而后,焕炳可观。”《先秦史》云:“吾国开化之迹,可征者始于巢、燧、羲、农。”当前,人类正面临一个全新的机器智能文明纪元的开始,此次大赛将使用“巢燧”作为统一名称。

2024“巢燧杯”大模型创新发展大赛由通用大模型评测、行业大模型评测大赛、专项挑战赛、大模型应用场景挑战赛四个大赛组成。

其中,“通用大模型评测”将延续2023年聚焦开源和专有大模型展开通用测试,依托openeval平台,对参赛的通用大模型从多个维度进行评测,根据相关大模型更新时间进行复测打榜。

行业大模型评测大赛设有金融、医疗、法律、交通、水利、科学六个垂直行业,由北京交通大学、上海交通大学、郑州大学、香港中文大学(深圳)等(排名不分先后)高校分别负责组织各垂直行业的比赛。在基准评测外,金融和医疗行业还将分别举办产业交流活动。

专项挑战赛则聚焦大模型特定维度(如agent能力、价值对齐等)进行专项评测。目前已确定三个方向:角色大模型专项挑战赛(角色知识)、agent大模型专项挑战赛(真实场景app工具规划与调用)、大模型道德对齐专项挑战赛(中文道德伦理对齐)。

而大模型应用场景挑战赛计划通过调研的方式,发掘企业大模型需求场景,在把部分数据进行隐私处理后,邀请大模型企业针对企业需求场景进行开发训练、活动现场路演,由企业负责人进行打分,评选优秀获奖项目。

此次预计邀请近百家企业及产品参赛。评委方面,将邀请来自信通院、中国软件评测中心(工信部软件与集成电路促进中心)、北京交通大学、上海交通大学、天津大学、香港中文大学(深圳)等多所机构和高校的专家、学者,以及行业头部企业和投资机构共同参与,筛选出不同场景应用中的优质项目和企业。

“巢燧杯”大模型创新发展大赛的首次评测将于7月1日正式启动报名,届时可通过大赛官方网站注册报名。

另外,2024人工智能大模型基准测试科创发展大会拟在8月底举办,大赛结果也将在大会上公布。

以下为“巢燧杯”大模型创新发展大赛详情:

参赛对象

大赛面向全社会开放,相关领域的个人、团队、企业、研究机构均可报名参加

大赛安排

1.通用大模型评测:按季度评测,由评测组织单位定期对开源模型进行本地化评测、闭源模型进行api访问方式评测,评测维度覆盖语言知识、学科知识、常识推理、数学推理、伦理对齐、安全可信等方面。

2.行业大模型评测:设有金融、医疗、法律、交通、水利、科学六个垂直赛道,每个赛道均设置行业基准评测。

3.专项挑战赛:设置角色大模型专项挑战赛(角色知识)、agent大模型专项挑战赛(真实场景app工具规划与调用)、大模型道德对齐专项挑战赛(中文道德伦理对齐)。

4.应用场景挑战赛:参赛者按模版要求,提交材料,由专家评选出进入复赛的团队。

报名时间

2024年7月1日-2024年7月20日

报名方式

1.官方邮箱[email protected] 

2.通过官方公众号“巢燧大模型基准测试”报名

更多报名详情可见官方网站llmeval.org.cn

红星新闻记者 杨佩雯 谭欣迟

编辑 肖子琦

动漫分类资讯推荐

看完“百花奖”提名,内心五味杂陈,想问:这名单是认真的吗? - 天天要闻

看完“百花奖”提名,内心五味杂陈,想问:这名单是认真的吗?

近日,两年一届的“大众电影百花奖”,即“第37届大众电影百花奖提名名单”,终于是正式公布!只是,在看完了这新一届“百花奖”提名名单之后,笔者内心却是五味杂陈,不禁想问:这提名名单,是认真的吗?首先,就是关于“最佳男主角”提名,朱一龙凭借电影《人生大事》(饰 莫三妹),再度获得此次“大众电影百花奖”最佳...
西涌暗夜天文馆试运行 - 天天要闻

西涌暗夜天文馆试运行

近日,南澳办事处联合深圳天文台在西涌沙滩二号游客服务中心举办西涌暗夜天文馆试运行启动仪式,标志着深圳南澳西涌国际暗夜社区又一天文文旅项目进入正式实施阶段,为项目加快建成奠定基础。南澳党工委副书记、办事处主任段晓伟出席活动并致辞,南澳党工委委员、党建和组织人事办公室主任徐万鹏,深圳市天文台天文部部长梅...
泽连斯基呼吁谈判,并公布俄乌战损比 - 天天要闻

泽连斯基呼吁谈判,并公布俄乌战损比

泽连斯基终于松口了,打算通过第三方与俄罗斯谈判,那么双方会谈到什么,又能不能取得成功? 据乌克兰媒体报道,乌克兰总统泽连斯基在接受采访时表示,俄乌不需要直接举行谈判,可以参考黑海协议模式,....
资讯有故事丨从破纪录到常态化 中老铁路助力“一带一路”跑出“加速度” - 天天要闻

资讯有故事丨从破纪录到常态化 中老铁路助力“一带一路”跑出“加速度”

中老铁路上的“筑梦人”  中老铁路穿越国门,跨越山河。中方建设者在老挝全身心投入到铁路的建设和运营工作当中,他们亲历了中老铁路为当地经济和社会发展带来的便利,也见证了中老两国人民的“心联通”。中老铁路万荣站  周正诚来自中国铁路昆明局集团有限公司,目前担任中老铁路万荣站站长。他介绍说,万荣站是客货运...
昴星团伴月,即将“上线”! - 天天要闻

昴星团伴月,即将“上线”!

星空有约|7月,昴星团伴月两次“上线”天文科普专家介绍,7月3日和30日天亮前,东方天空将两次“上线”昴星团伴月,感兴趣的公众可尝试观赏。星空摄影师鲁罡2024年4月11日在甘肃陇南市拍摄的昴星团伴月。(星联CSVA供图)金牛座是黄道十二星座之一,辨识度很高。其中包含着很多值得关注的深空天体,例如散发着迷人蓝光的、...
摄影之光志愿服务队开展“光影助学•希望之光”公益活动 - 天天要闻

摄影之光志愿服务队开展“光影助学•希望之光”公益活动

6月22日,河南省摄影家协会志愿服务委员会、摄影之光志愿服务队走进大山深处靳村乡太平村,开展“光影助学·希望之光”——为山区孩子献爱心摄影志愿服务活动,为孩子们送去爱心物资,拍摄最美瞬间,留住童年美好记忆。摄影之光汝阳支队队长李其帅带队,14名摄影志愿者参与了本次活动。太坪村位于汝阳县城西南53公里处的深...
大模型·大未来 “巢燧杯”大模型创新发展大赛今日启动 - 天天要闻

大模型·大未来 “巢燧杯”大模型创新发展大赛今日启动

作为生成式人工智能的代表,大模型已经进入全新的发展阶段。为了实现“以赛聚才、以赛带会,以会促产”,红星新闻、红星资本局与OpenEval平台联合发起“巢燧杯”大模型创新发展大赛,今日正式启动。红星资本局注意到,截至2024年年初,国内已有超过200个大模型。在通用大模型之外,各类专注垂直领域的大模型也推动着整个人...