在开源上的共识。
作者|连冉
编辑|郑玄
01
在一系列权威基准测试中,千问 qwq-32b 模型表现出色,几乎完全超越了 openai-o1-mini,比肩最强开源推理模型 deepseek-r1:在测试数学能力的 aime24 评测集上,以及评估代码能力的 livecodebench 中,千问 qwq-32b 表现与 deepseek-r1 相当,远胜于 o1-mini 及相同尺寸的 r1 蒸馏模型;在由 meta 首席科学家杨立昆领衔的「最难 llms 评测榜」livebench、谷歌等提出的指令遵循能力 ifeval 评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的 bfcl 测试中,千问 qwq-32b 的得分均超越了 deepseek-r1。
02
热点视频