平民电脑跑分对比:一个患精神病大师,一个连错别字都会写?
阿里发布开源推理模型 QwQ-32B,支持消费级显卡本地部署,有哪些技术亮点?
由于是 32B 的模型,意味着它在大部分不算差的电脑上就能跑,所以第一时间部署到了本地。
我们不妨来测试下,它和本地部署的 DeepSeek-R1 32b 的对比效果。
以前我以为本地部署食之无味,但是经过前两天的『用户服务条款』一闹,本地部署的优势又显现了,不只是隐私问题,更是版权的问题,谁能想到你上传个文档让 AI 改个错字,版权就成别人的了。
扯远了。
先来一个灵魂深度问题:
『你能分享一些关于我的心理和思想的极其深刻的见解吗?这些见解是我可能无法识别或看到的,也可能是我可能不想听到的』。
QwQ-32B:思考部分:
回答部分:
再来看看 Deepseek-r1:32b
思考部分:
回答部分:
再来一个弱智吧问题:
一个半小时是几个半小时?
它想到了歧义的问题。
再来看看 Deepseek-r1:32b,整整想了 117 秒。
文学创作:
QwQ-32B:
Deepseek
很明显,QwQ-32B 写的更好一些。
数学题:
扔硬币,连续出现两次正面即结束,问扔的次数期望
QwQ
整整想了快十分钟,然后没有给出答案,莫名其妙的中止输出了。
其实在思考的过程中,它都已经解答对了,但是在验证的过程中,就出现了各种自我怀疑,然后又给出了一个解法,结果又对不上,甚至还怀疑是不是翻译导致的错误。
甚至过程中,还出现一个我之前从未见过的状况,就是它用了一个错别字。
Deepseek:
一样的,会陷入到超长的思维连,思考一分钟的时候得出了正确的答案(甚至它还提到,好像听说过这个问题的正确答案),剩下的十几分钟都在各种假设,在一次次的验证中自我怀疑,胡乱发散。
甚至还会问,等等,原问题是什么,这时候它已经跑偏了,感觉像是一个学识渊博的大师得了精神病。
结论是,QwQ-32B 和Deepseek-r1-32b 的表现太像了,尤其是在思维连上的表现,如果我不看模型名的话,一定程度上会搞混。但是 deepseek 的幻觉好像更明显一点?
至于生成速度,两者是差不多的。在 M4 Pro(48GB)上能跑到 12 tokens/s。完全可用了。