在開源上的共識。
作者|連冉
編輯|鄭玄
01
在一系列權威基準測試中,千問 qwq-32b 模型表現出色,幾乎完全超越了 openai-o1-mini,比肩最強開源推理模型 deepseek-r1:在測試數學能力的 aime24 評測集上,以及評估代碼能力的 livecodebench 中,千問 qwq-32b 表現與 deepseek-r1 相當,遠勝於 o1-mini 及相同尺寸的 r1 蒸餾模型;在由 meta 首席科學家楊立昆領銜的「最難 llms 評測榜」livebench、谷歌等提出的指令遵循能力 ifeval 評測集、由加州大學伯克利分校等提出的評估準確調用函數或工具方面的 bfcl 測試中,千問 qwq-32b 的得分均超越了 deepseek-r1。
02
熱點視頻