大模型·大未來 “巢燧杯”大模型創新發展大賽今日啟動

2024年07月01日12:50:10 動漫 8803

作為生成式人工智能的代表,大模型已經進入全新的發展階段。

為了實現“以賽聚才、以賽帶會,以會促產”,紅星新聞、紅星資本局與openeval平台聯合發起“巢燧杯”大模型創新發展大賽,今日正式啟動。

紅星資本局注意到,截至2024年年初,國內已有超過200個大模型。在通用大模型之外,各類專註垂直領域的大模型也推動着整個人工智能產業快速發展,甚至在各類產業的升級轉型中發揮出了決定性的作用。

大模型·大未來 “巢燧杯”大模型創新發展大賽今日啟動 - 天天要聞

採用專屬自動測試平台

“以賽代評”助力行業發展

今年3月,國家發展改革委、工業和信息化部等18個部門聯合印發《貫徹實施<國家標準化發展綱要>行動計劃(2024-2025年)》,其中提到:要在人工智能等關鍵領域集中攻關,加快研製一批重要技術標準;要聚焦生成式人工智能等領域,前瞻布局未來產業標準研究。

開展大模型基準測試將為大模型技術發展打造“高速高清攝像頭”,“捕獲”大模型技術發展態勢全景圖,深化大模型認識,為大模型發展提供基準數據支撐和任務定義,有利於引領大模型技術創新和突破。

天津大學智能與計算學部熊德意教授認為,“通過對開源和閉源大模型進行大規模、多維度基準測試,將精準定位大模型產業發展的技術短板,為大模型技術落地和應用提供診斷分析報告,推動前沿技術與產業發展深度對接;此外,大模型基準測試的開展也能夠為人工智能安全治理提供數據資料和技術手段,為大模型安全治理提供重要技術抓手,推進業界形成以評測為基礎的大模型負責任發展理念。”

事實上,在2023年,第一屆的人工智能大模型基準測試科創發展大會就搭建了openeval平台,該平台是專門為大模型評測研製開發的自動測試平台。

此次大會站在第一屆大會成果築起的高台上,將繼續依託openeval平台分賽道對大模型產品進行評測,但相較過往會更進一步探索前沿的模型評測方法,建立大模型評測標準與協議,通過評測標準等引導市面上的大模型高質量發展。

評測標準將指引行業高速發展,評測結果也將助力行業構建全景視圖,並推進人工智能領域技術發展與突破。

“巢燧杯”正式啟動

分四大賽道展示大模型的能力與價值

“巢燧之前,寂寥無紀;書契而後,煥炳可觀。”《先秦史》云:“吾國開化之跡,可征者始於巢、燧、羲、農。”當前,人類正面臨一個全新的機器智能文明紀元的開始,此次大賽將使用“巢燧”作為統一名稱。

2024“巢燧杯”大模型創新發展大賽由通用大模型評測、行業大模型評測大賽、專項挑戰賽、大模型應用場景挑戰賽四個大賽組成。

其中,“通用大模型評測”將延續2023年聚焦開源和專有大模型展開通用測試,依託openeval平台,對參賽的通用大模型從多個維度進行評測,根據相關大模型更新時間進行複測打榜。

行業大模型評測大賽設有金融、醫療、法律、交通、水利、科學六個垂直行業,由北京交通大學、上海交通大學、鄭州大學、香港中文大學(深圳)等(排名不分先後)高校分別負責組織各垂直行業的比賽。在基準評測外,金融和醫療行業還將分別舉辦產業交流活動。

專項挑戰賽則聚焦大模型特定維度(如agent能力、價值對齊等)進行專項評測。目前已確定三個方向:角色大模型專項挑戰賽(角色知識)、agent大模型專項挑戰賽(真實場景app工具規劃與調用)、大模型道德對齊專項挑戰賽(中文道德倫理對齊)。

而大模型應用場景挑戰賽計劃通過調研的方式,發掘企業大模型需求場景,在把部分數據進行隱私處理後,邀請大模型企業針對企業需求場景進行開發訓練、活動現場路演,由企業負責人進行打分,評選優秀獲獎項目。

此次預計邀請近百家企業及產品參賽。評委方面,將邀請來自信通院、中國軟件評測中心(工信部軟件與集成電路促進中心)、北京交通大學、上海交通大學、天津大學、香港中文大學(深圳)等多所機構和高校的專家、學者,以及行業頭部企業和投資機構共同參與,篩選出不同場景應用中的優質項目和企業。

“巢燧杯”大模型創新發展大賽的首次評測將於7月1日正式啟動報名,屆時可通過大賽官方網站註冊報名。

另外,2024人工智能大模型基準測試科創發展大會擬在8月底舉辦,大賽結果也將在大會上公布。

以下為“巢燧杯”大模型創新發展大賽詳情:

參賽對象

大賽面向全社會開放,相關領域的個人、團隊、企業、研究機構均可報名參加

大賽安排

1.通用大模型評測:按季度評測,由評測組織單位定期對開源模型進行本地化評測、閉源模型進行api訪問方式評測,評測維度覆蓋語言知識、學科知識、常識推理、數學推理、倫理對齊、安全可信等方面。

2.行業大模型評測:設有金融、醫療、法律、交通、水利、科學六個垂直賽道,每個賽道均設置行業基準評測。

3.專項挑戰賽:設置角色大模型專項挑戰賽(角色知識)、agent大模型專項挑戰賽(真實場景app工具規劃與調用)、大模型道德對齊專項挑戰賽(中文道德倫理對齊)。

4.應用場景挑戰賽:參賽者按模版要求,提交材料,由專家評選出進入複賽的團隊。

報名時間

2024年7月1日-2024年7月20日

報名方式

1.官方郵箱[email protected] 

2.通過官方公眾號“巢燧大模型基準測試”報名

更多報名詳情可見官方網站llmeval.org.cn

紅星新聞記者 楊佩雯 譚欣遲

編輯 肖子琦

動漫分類資訊推薦

看完“百花獎”提名,內心五味雜陳,想問:這名單是認真的嗎? - 天天要聞

看完“百花獎”提名,內心五味雜陳,想問:這名單是認真的嗎?

近日,兩年一屆的“大眾電影百花獎”,即“第37屆大眾電影百花獎提名名單”,終於是正式公布!只是,在看完了這新一屆“百花獎”提名名單之後,筆者內心卻是五味雜陳,不禁想問:這提名名單,是認真的嗎?首先,就是關於“最佳男主角”提名,朱一龍憑藉電影《人生大事》(飾 莫三妹),再度獲得此次“大眾電影百花獎”最佳...
西涌暗夜天文館試運行 - 天天要聞

西涌暗夜天文館試運行

近日,南澳辦事處聯合深圳天文台在西涌沙灘二號遊客服務中心舉辦西涌暗夜天文館試運行啟動儀式,標誌着深圳南澳西涌國際暗夜社區又一天文文旅項目進入正式實施階段,為項目加快建成奠定基礎。南澳黨工委副書記、辦事處主任段曉偉出席活動並致辭,南澳黨工委委員、黨建和組織人事辦公室主任徐萬鵬,深圳市天文台天文部部長梅...
澤連斯基呼籲談判,並公布俄烏戰損比 - 天天要聞

澤連斯基呼籲談判,並公布俄烏戰損比

澤連斯基終於鬆口了,打算通過第三方與俄羅斯談判,那麼雙方會談到什麼,又能不能取得成功? 據烏克蘭媒體報道,烏克蘭總統澤連斯基在接受採訪時表示,俄烏不需要直接舉行談判,可以參考黑海協議模式,....
資訊有故事丨從破紀錄到常態化 中老鐵路助力“一帶一路”跑出“加速度” - 天天要聞

資訊有故事丨從破紀錄到常態化 中老鐵路助力“一帶一路”跑出“加速度”

中老鐵路上的“築夢人”  中老鐵路穿越國門,跨越山河。中方建設者在老撾全身心投入到鐵路的建設和運營工作當中,他們親歷了中老鐵路為當地經濟和社會發展帶來的便利,也見證了中老兩國人民的“心聯通”。中老鐵路萬榮站  周正誠來自中國鐵路昆明局集團有限公司,目前擔任中老鐵路萬榮站站長。他介紹說,萬榮站是客貨運...
昴星團伴月,即將“上線”! - 天天要聞

昴星團伴月,即將“上線”!

星空有約|7月,昴星團伴月兩次“上線”天文科普專家介紹,7月3日和30日天亮前,東方天空將兩次“上線”昴星團伴月,感興趣的公眾可嘗試觀賞。星空攝影師魯罡2024年4月11日在甘肅隴南市拍攝的昴星團伴月。(星聯CSVA供圖)金牛座是黃道十二星座之一,辨識度很高。其中包含着很多值得關注的深空天體,例如散發著迷人藍光的、...
攝影之光志願服務隊開展“光影助學•希望之光”公益活動 - 天天要聞

攝影之光志願服務隊開展“光影助學•希望之光”公益活動

6月22日,河南省攝影家協會志願服務委員會、攝影之光志願服務隊走進大山深處靳村鄉太平村,開展“光影助學·希望之光”——為山區孩子獻愛心攝影志願服務活動,為孩子們送去愛心物資,拍攝最美瞬間,留住童年美好記憶。攝影之光汝陽支隊隊長李其帥帶隊,14名攝影志願者參與了本次活動。太坪村位於汝陽縣城西南53公里處的深...
大模型·大未來 “巢燧杯”大模型創新發展大賽今日啟動 - 天天要聞

大模型·大未來 “巢燧杯”大模型創新發展大賽今日啟動

作為生成式人工智能的代表,大模型已經進入全新的發展階段。為了實現“以賽聚才、以賽帶會,以會促產”,紅星新聞、紅星資本局與OpenEval平台聯合發起“巢燧杯”大模型創新發展大賽,今日正式啟動。紅星資本局注意到,截至2024年年初,國內已有超過200個大模型。在通用大模型之外,各類專註垂直領域的大模型也推動着整個人...