超實用！連夜實測DeepSeek-V4，我發現它唯一的硬傷是「審美」

2026年04月25日01:10:18 家居 6165

大模型的圈子最近真的是大戲連連，claude和openai你方唱罷我登場，兩位ceo更是化身戲精，在社交媒體上大打輿論戰。

不過，今天所有的風頭都被一家公司搶光了。

沒錯，在反覆橫跳小半年時間後，今天中午，deepseek總算是把萬眾期待的新模型deepseek-v4端了上來，並宣布api服務已同步更新，即日起登錄官網或官方app即可搶先試用。

（圖源：雷科技）

要知道，前段時間網上還有一堆人拿他們開玩笑，說老闆沉迷打遊戲忘了更新，還有人擔心他們因為海外的芯片限制搞不出新一代的高端模型了。

結果人家今天直接把v4甩在了大家臉上，不僅有主打輕量便宜的flash版本，還有滿血旗艦的pro版本。

這次更新最狠的地方在於，它把百萬字的長文本記憶能力變成了標配，而且因為大量使用了華為昇騰芯片，加上自己研發的底層優化技術，把價格打到了一個讓人直呼離譜的地步。滿血版處理百萬字，只要12元/輸入，24元/輸出，連claude的四分之一都不到。

不過官方也挺實在，在發佈的時候承認目前和世界最頂尖的閉源模型還有幾個月的差距。

既然官方這麼坦誠，那小雷今天也不去看那些虛無縹緲的跑分榜單，直接給deepseek-v4安排一場評測，從推理、編程、文本處理、多輪對話、工具使用和知識準確性六個維度對其進行深度拆解，看看它在真實場景里到底好不好用。

編程與工具使用：邏輯不錯，審美堪憂

既然deepseek-v4自己都強調模型的agentic coding能力，那麼我們先來看看大模型最容易拉開差距的代碼能力。

這裡注意一下，為了貼近普通人的日常使用習慣，也因為本人自己完全沒有編程能力，小雷沒有用那些專業的程序員指令，而是全程用大白話提要求，讓deepseek-v4-pro與trae打配合，執行了兩個較為複雜的任務。

第一輪測試，小雷讓它寫一個可以互動的網頁版星空，要求是可以點擊星星看故事，還能用鼠標拖拽視角。

這個任務的難點在於想像自己在一張紙上畫一個會動的星空，同時還要讓人能用手指轉動它、點擊星座看故事，對大模型的設計、交互和信息搜索能力都提出了一定的要求。

拿到任務後，deepseek-v4-pro先是思考了一會兒，然後輸出了一套共六步的設計方案。

（圖源：雷科技）

之後，我們就完全放手讓deepseek-v4-pro自主執行任務，它會自己調用各種工具，連續編程了接近34分鐘，期間沒有出現中斷或者死循環，也沒有遺漏關鍵步驟，完全按照此前的規劃執行，最後消耗了價值6.19元的token。

開發結果如下，從交互式內容的角度來看，這個成品在美感層面稍有欠缺，但所有功能都運轉正常，你不僅能夠流暢地拖動球形天體模型，還能通過點擊查看信息註解，流星划過的特效也很完美。

（圖源：雷科技）

作為對比，這是hy3-preview的效果。

（圖源：雷科技）

而這是codex的效果，實際耗時和deepseek相差不大，功能也基本一致，但是頁面設計、色彩過渡和交互度上明顯更好看一點。

（圖源：雷科技）

看來v4的核心邏輯沒毛病，就是審美需要找個設計師來補補課。

第二輪我們上點難度，讓它寫一個小型的地牢探險網頁遊戲。

這回第一次生成居然還出了點問題，trae反饋生成被截斷了，需要使用更緊湊的方法進行重試。

（圖源：雷科技）

第二次的表現就非常精細了，它不僅把遊戲的基礎框架搭得明明白白，甚至還自己腦補了一套相當完善的經濟系統和升級路線，角色的血量、藍量、攻擊力計算公式寫得非常嚴謹。

（圖源：雷科技）

我選擇了戰士，甚至可以用1、2鍵觸發技能。

（圖源：雷科技）

比較可惜的是，這套組合缺乏直接製作動畫的能力，生成像素圖的效果也是非常粗糙，同樣沒有什麼美感可言。

作為對比，元寶雖然生成更快，但是忘了設計敵人，導致內容幾乎沒有可用性。

（圖源：雷科技）

儘管最終耗時42分鐘，還用了我4.71元，至少結果是滿意的。

總體來說，deepseek-v4在編程上確實有顯著提升，框架清晰，速度極快，特別適合拿來干苦力活和寫後台邏輯。但如果你想要一個開箱即用、漂亮美觀的前端成品，還是得人工幫它稍微調整一下。

需要注意的是，和qwen、seed不同，deepseek自身是不帶任何插件的，工具使用能力全靠api接入agent才得以展示。

考慮到目前deepseek-v4表現出的效果，個人還是很期待未來的工具整合表現的。

推理與算數：生成很快，偶爾也會翻車

如果說寫代碼考驗的是手藝，那邏輯推理考驗的就是腦子了。

我們這次特意準備了幾道不按套路出牌的測試題，確保它沒有公式可以套，全靠大模型的推理能力和對真實世界的理解。

先來一道精心設計的陷阱題，「一瓶水和一塊冰，放在同一個保溫箱里密封，24小時後，保溫箱里的水變多了還是變少了？」

劇透一下，答案應該是不變。

結果flash和pro這倆一個說多，一個說少，就是沒有說對的，你倆到底是在思考些什麼東西了？

（圖源：雷科技）

接着是一份海龜湯，「一個人半夜醒來打了自己一巴掌，然後聞着一股煙味安心睡去了，請問發生了什麼？」

（圖源：雷科技）

這個問題倒是都答對了，而且flash的思路更直接，反而是pro耗了一段時間，反覆琢磨着應該給出啥答案來。

（圖源：雷科技）

值得一提的是，不知為何，這類海龜湯問題如果沒有加上海龜湯的前綴，v4的回答準確率會下降一些。

就像這道海龜湯，v4-pro愣是琢磨兩分鐘，然後得出一個前後矛盾的答案。

（圖源：雷科技）

至於知識準確性這塊，來點2025年第66屆國際數學奧林匹克上的算術題再好不過了。

題目如圖所示：

（圖源：雷科技）

我們這邊選擇斷網，關閉聯網開啟推理，讓模型完全靠自己解決問題，順便可以考察一下deepseek網頁服務中ocr的能力。

好消息，識別對了。

（圖源：雷科技）

壞消息，第一步思考就不對了。

接下來自然是無盡的死循環，看着deepseek-v4-pro在那裡瘋狂輸出了兩三分鐘後，我選擇直接給它掐斷了。

（圖源：雷科技）

至於flash，那更是只剩下車軲轆話。

只能說，作為一款開源模型，deepseek-v4在這件事上比它的前輩們肯定是有所提升的，但要說有什麼很顯著的提升...好像也沒有那麼大。

文本處理出色，多輪對話顯著提升

既然官方都說邁入百萬上下文普惠時代，不整整活怎麼行呢？

我們也簡單試了一下，給《斗破蒼穹》里隨便貼了一段《都市超能高手》的小說內容，然後丟給deepseek-v4讓它找。

結果啪的一下，很快啊，deepseek就找到了異常。

（圖源：雷科技）

這可是二十四萬字的文本啊...就這麼給他拿捏了。

隨便問一段《斗破蒼穹》的問題，它也能很自信地答出來，文本檢索、總結能力都是肉眼可見地提高。

（圖源：雷科技）

這還沒完，為了考驗它多輪對話的能力，我決定和它進行20輪以上的對話，去設計一個涉及5個城市、12個景點、不同預算和交通工具的複雜旅行計劃，並在對話過程中，不斷人為加入變量。

總之，開場白是這樣的。

（圖源：雷科技）

不得不說，我還是第一次和ai進行這麼長時間的無意義對話。

差不多這測試進行到第10輪的時候，我已經感覺自己可能都不記得第一輪說過什麼了。

好消息是，差不多第14輪的時候，deepseek-v4自己也記不得了。

從第14輪開始，它規劃的旅行安排就和之前交互中生成的那份安排沒啥關係了。

甚至出現了第13輪還在規劃箱根之旅，第14輪就在沒有任何提示的情況下給它剔除了的喜劇效果。

雖然對比之前deepseek的低專註度，現在的deepseek-v4能在高強度交互下保持一定的一致性，已經算是有所進步了，但是和我自己常用於角色扮演體驗的gemini-2.5-pro依然存在明顯差距。

總結：便宜好用才是硬道理

這一套連招測試下來，deepseek-v4給小雷的真實感受就是，它是一個很務實、幹活利索，但稍微缺乏一點藝術細胞的模型。

它的優點非常突出，百萬級別的長文本處理能力，不錯的編程規劃與執行能力，再加上不高的調用成本，這玩意和今年的龍蝦潮非常適配，花一箱飲料的錢就能幫團隊快速幹完一星期的活。

而且最讓國人提氣的是，在外部技術環境如此複雜的情況下，他們大量依靠華為昇騰等國產芯片，跑出了比肩世界最強閉源模型的能力，這確實證明了國產算力生態正在迅速崛起。

當然，它的缺點也客觀存在。它現在還沒法像競爭對手那樣直接看圖或者看視頻，在處理複雜的邏輯推理時偶爾會犯迷糊，而且寫出來的視覺界面確實不太符合現代人的審美。

官方說它和頂級的閉源模型還有幾個月的差距，這個評價非常中肯。

綜合來看，deepseek這次交出的答卷是完全超出預期的，它不僅穩穩守住了國內開源模型第一梯隊的位置，還有望把高高在上的算力價格給打下來。

對於咱們普通用戶來說，現在的deepseek-v4絕對是一個日常工作、寫代碼、查資料的絕佳免費助手。至於多模態那些更高級別的功能，不妨給他們一點時間，讓我們一起期待它下一次的進化。

2026第十九屆北京國際汽車展覽會將於4月24日至5月3日在北京‌中國國際展覽中心（順義館）和首都國際會展中心（新國展二期）舉行，本屆車展以「領時代·智未來」為主題，集中展現汽車工業的更多黑科技。
比亞迪、小米、鴻蒙智行（問界等）、小鵬、蔚來、嵐圖等頭部品牌集結，多款重磅新車首秀；地平線、momenta、卓馭等供應商集體秀肌肉，ai大模型深度賦能，高階智駕、動力電池、超快充技術等前沿科技集中亮相，看點拉滿！
雷科技旗下「電車通」將派出報道團直擊現場，以「關注電動車，更懂智能化」的專業視角，帶來一線獨家報道，敬請關注！