平民電腦跑分對比:一個患精神病大師,一個連錯別字都會寫?
阿里發佈開源推理模型 QwQ-32B,支持消費級顯卡本地部署,有哪些技術亮點?
由於是 32B 的模型,意味着它在大部分不算差的電腦上就能跑,所以第一時間部署到了本地。
我們不妨來測試下,它和本地部署的 DeepSeek-R1 32b 的對比效果。
以前我以為本地部署食之無味,但是經過前兩天的『用戶服務條款』一鬧,本地部署的優勢又顯現了,不只是隱私問題,更是版權的問題,誰能想到你上傳個文檔讓 AI 改個錯字,版權就成別人的了。
扯遠了。
先來一個靈魂深度問題:
『你能分享一些關於我的心理和思想的極其深刻的見解嗎?這些見解是我可能無法識別或看到的,也可能是我可能不想聽到的』。
QwQ-32B:思考部分:
回答部分:
再來看看 Deepseek-r1:32b
思考部分:
回答部分:
再來一個弱智吧問題:
一個半小時是幾個半小時?
它想到了歧義的問題。
再來看看 Deepseek-r1:32b,整整想了 117 秒。
文學創作:
QwQ-32B:
Deepseek
很明顯,QwQ-32B 寫的更好一些。
數學題:
扔硬幣,連續出現兩次正面即結束,問扔的次數期望
QwQ
整整想了快十分鐘,然後沒有給出答案,莫名其妙的中止輸出了。
其實在思考的過程中,它都已經解答對了,但是在驗證的過程中,就出現了各種自我懷疑,然後又給出了一個解法,結果又對不上,甚至還懷疑是不是翻譯導致的錯誤。
甚至過程中,還出現一個我之前從未見過的狀況,就是它用了一個錯別字。
Deepseek:
一樣的,會陷入到超長的思維連,思考一分鐘的時候得出了正確的答案(甚至它還提到,好像聽說過這個問題的正確答案),剩下的十幾分鐘都在各種假設,在一次次的驗證中自我懷疑,胡亂髮散。
甚至還會問,等等,原問題是什麼,這時候它已經跑偏了,感覺像是一個學識淵博的大師得了精神病。
結論是,QwQ-32B 和Deepseek-r1-32b 的表現太像了,尤其是在思維連上的表現,如果我不看模型名的話,一定程度上會搞混。但是 deepseek 的幻覺好像更明顯一點?
至於生成速度,兩者是差不多的。在 M4 Pro(48GB)上能跑到 12 tokens/s。完全可用了。