大模型的圈子最近真的是大戲連連,claude和openai你方唱罷我登場,兩位ceo更是化身戲精,在社交媒體上大打輿論戰。
不過,今天所有的風頭都被一家公司搶光了。
沒錯,在反覆橫跳小半年時間後,今天中午,deepseek總算是把萬眾期待的新模型deepseek-v4端了上來,並宣布api服務已同步更新,即日起登錄官網或官方app即可搶先試用。

(圖源:雷科技)
要知道,前段時間網上還有一堆人拿他們開玩笑,說老闆沉迷打遊戲忘了更新,還有人擔心他們因為海外的芯片限制搞不出新一代的高端模型了。
結果人家今天直接把v4甩在了大家臉上,不僅有主打輕量便宜的flash版本,還有滿血旗艦的pro版本。
這次更新最狠的地方在於,它把百萬字的長文本記憶能力變成了標配,而且因為大量使用了華為昇騰芯片,加上自己研發的底層優化技術,把價格打到了一個讓人直呼離譜的地步。滿血版處理百萬字,只要12元/輸入,24元/輸出,連claude的四分之一都不到。
不過官方也挺實在,在發佈的時候承認目前和世界最頂尖的閉源模型還有幾個月的差距。
既然官方這麼坦誠,那小雷今天也不去看那些虛無縹緲的跑分榜單,直接給deepseek-v4安排一場評測,從推理、編程、文本處理、多輪對話、工具使用和知識準確性六個維度對其進行深度拆解,看看它在真實場景里到底好不好用。
編程與工具使用:邏輯不錯,審美堪憂
既然deepseek-v4自己都強調模型的agentic coding能力,那麼我們先來看看大模型最容易拉開差距的代碼能力。
這裡注意一下,為了貼近普通人的日常使用習慣,也因為本人自己完全沒有編程能力,小雷沒有用那些專業的程序員指令,而是全程用大白話提要求,讓deepseek-v4-pro與trae打配合,執行了兩個較為複雜的任務。
第一輪測試,小雷讓它寫一個可以互動的網頁版星空,要求是可以點擊星星看故事,還能用鼠標拖拽視角。
這個任務的難點在於想像自己在一張紙上畫一個會動的星空,同時還要讓人能用手指轉動它、點擊星座看故事,對大模型的設計、交互和信息搜索能力都提出了一定的要求。
拿到任務後,deepseek-v4-pro先是思考了一會兒,然後輸出了一套共六步的設計方案。

(圖源:雷科技)
之後,我們就完全放手讓deepseek-v4-pro自主執行任務,它會自己調用各種工具,連續編程了接近34分鐘,期間沒有出現中斷或者死循環,也沒有遺漏關鍵步驟,完全按照此前的規劃執行,最後消耗了價值6.19元的token。
開發結果如下,從交互式內容的角度來看,這個成品在美感層面稍有欠缺,但所有功能都運轉正常,你不僅能夠流暢地拖動球形天體模型,還能通過點擊查看信息註解,流星划過的特效也很完美。


(圖源:雷科技)
作為對比,這是hy3-preview的效果。

(圖源:雷科技)
而這是codex的效果,實際耗時和deepseek相差不大,功能也基本一致,但是頁面設計、色彩過渡和交互度上明顯更好看一點。

(圖源:雷科技)
看來v4的核心邏輯沒毛病,就是審美需要找個設計師來補補課。
第二輪我們上點難度,讓它寫一個小型的地牢探險網頁遊戲。
這回第一次生成居然還出了點問題,trae反饋生成被截斷了,需要使用更緊湊的方法進行重試。

(圖源:雷科技)
第二次的表現就非常精細了,它不僅把遊戲的基礎框架搭得明明白白,甚至還自己腦補了一套相當完善的經濟系統和升級路線,角色的血量、藍量、攻擊力計算公式寫得非常嚴謹。

(圖源:雷科技)
我選擇了戰士,甚至可以用1、2鍵觸發技能。


(圖源:雷科技)
比較可惜的是,這套組合缺乏直接製作動畫的能力,生成像素圖的效果也是非常粗糙,同樣沒有什麼美感可言。
作為對比,元寶雖然生成更快,但是忘了設計敵人,導致內容幾乎沒有可用性。

(圖源:雷科技)
儘管最終耗時42分鐘,還用了我4.71元,至少結果是滿意的。
總體來說,deepseek-v4在編程上確實有顯著提升,框架清晰,速度極快,特別適合拿來干苦力活和寫後台邏輯。但如果你想要一個開箱即用、漂亮美觀的前端成品,還是得人工幫它稍微調整一下。
需要注意的是,和qwen、seed不同,deepseek自身是不帶任何插件的,工具使用能力全靠api接入agent才得以展示。
考慮到目前deepseek-v4表現出的效果,個人還是很期待未來的工具整合表現的。
推理與算數:生成很快,偶爾也會翻車
如果說寫代碼考驗的是手藝,那邏輯推理考驗的就是腦子了。
我們這次特意準備了幾道不按套路出牌的測試題,確保它沒有公式可以套,全靠大模型的推理能力和對真實世界的理解。
先來一道精心設計的陷阱題,「一瓶水和一塊冰,放在同一個保溫箱里密封,24小時後,保溫箱里的水變多了還是變少了?」
劇透一下,答案應該是不變。
結果flash和pro這倆一個說多,一個說少,就是沒有說對的,你倆到底是在思考些什麼東西了?

(圖源:雷科技)
接着是一份海龜湯,「一個人半夜醒來打了自己一巴掌,然後聞着一股煙味安心睡去了,請問發生了什麼?」

(圖源:雷科技)
這個問題倒是都答對了,而且flash的思路更直接,反而是pro耗了一段時間,反覆琢磨着應該給出啥答案來。

(圖源:雷科技)
值得一提的是,不知為何,這類海龜湯問題如果沒有加上海龜湯的前綴,v4的回答準確率會下降一些。
就像這道海龜湯,v4-pro愣是琢磨兩分鐘,然後得出一個前後矛盾的答案。

(圖源:雷科技)
至於知識準確性這塊,來點2025年第66屆國際數學奧林匹克上的算術題再好不過了。
題目如圖所示:

(圖源:雷科技)
我們這邊選擇斷網,關閉聯網開啟推理,讓模型完全靠自己解決問題,順便可以考察一下deepseek網頁服務中ocr的能力。
好消息,識別對了。

(圖源:雷科技)
壞消息,第一步思考就不對了。
接下來自然是無盡的死循環,看着deepseek-v4-pro在那裡瘋狂輸出了兩三分鐘後,我選擇直接給它掐斷了。

(圖源:雷科技)
至於flash,那更是只剩下車軲轆話。
只能說,作為一款開源模型,deepseek-v4在這件事上比它的前輩們肯定是有所提升的,但要說有什麼很顯著的提升...好像也沒有那麼大。
文本處理出色,多輪對話顯著提升
既然官方都說邁入百萬上下文普惠時代,不整整活怎麼行呢?
我們也簡單試了一下,給《斗破蒼穹》里隨便貼了一段《都市超能高手》的小說內容,然後丟給deepseek-v4讓它找。
結果啪的一下,很快啊,deepseek就找到了異常。

(圖源:雷科技)
這可是二十四萬字的文本啊...就這麼給他拿捏了。
隨便問一段《斗破蒼穹》的問題,它也能很自信地答出來,文本檢索、總結能力都是肉眼可見地提高。

(圖源:雷科技)
這還沒完,為了考驗它多輪對話的能力,我決定和它進行20輪以上的對話,去設計一個涉及5個城市、12個景點、不同預算和交通工具的複雜旅行計劃,並在對話過程中,不斷人為加入變量。
總之,開場白是這樣的。

(圖源:雷科技)
不得不說,我還是第一次和ai進行這麼長時間的無意義對話。
差不多這測試進行到第10輪的時候,我已經感覺自己可能都不記得第一輪說過什麼了。
好消息是,差不多第14輪的時候,deepseek-v4自己也記不得了。

從第14輪開始,它規劃的旅行安排就和之前交互中生成的那份安排沒啥關係了。
甚至出現了第13輪還在規劃箱根之旅,第14輪就在沒有任何提示的情況下給它剔除了的喜劇效果。

雖然對比之前deepseek的低專註度,現在的deepseek-v4能在高強度交互下保持一定的一致性,已經算是有所進步了,但是和我自己常用於角色扮演體驗的gemini-2.5-pro依然存在明顯差距。
總結:便宜好用才是硬道理
這一套連招測試下來,deepseek-v4給小雷的真實感受就是,它是一個很務實、幹活利索,但稍微缺乏一點藝術細胞的模型。
它的優點非常突出,百萬級別的長文本處理能力,不錯的編程規劃與執行能力,再加上不高的調用成本,這玩意和今年的龍蝦潮非常適配,花一箱飲料的錢就能幫團隊快速幹完一星期的活。
而且最讓國人提氣的是,在外部技術環境如此複雜的情況下,他們大量依靠華為昇騰等國產芯片,跑出了比肩世界最強閉源模型的能力,這確實證明了國產算力生態正在迅速崛起。

當然,它的缺點也客觀存在。它現在還沒法像競爭對手那樣直接看圖或者看視頻,在處理複雜的邏輯推理時偶爾會犯迷糊,而且寫出來的視覺界面確實不太符合現代人的審美。
官方說它和頂級的閉源模型還有幾個月的差距,這個評價非常中肯。
綜合來看,deepseek這次交出的答卷是完全超出預期的,它不僅穩穩守住了國內開源模型第一梯隊的位置,還有望把高高在上的算力價格給打下來。
對於咱們普通用戶來說,現在的deepseek-v4絕對是一個日常工作、寫代碼、查資料的絕佳免費助手。至於多模態那些更高級別的功能,不妨給他們一點時間,讓我們一起期待它下一次的進化。
2026第十九屆北京國際汽車展覽會將於4月24日至5月3日在北京中國國際展覽中心(順義館)和首都國際會展中心(新國展二期)舉行,本屆車展以「領時代·智未來」為主題,集中展現汽車工業的更多黑科技。
比亞迪、小米、鴻蒙智行(問界等)、小鵬、蔚來、嵐圖等頭部品牌集結,多款重磅新車首秀;地平線、momenta、卓馭等供應商集體秀肌肉,ai大模型深度賦能,高階智駕、動力電池、超快充技術等前沿科技集中亮相,看點拉滿!
雷科技旗下「電車通」將派出報道團直擊現場,以「關注電動車,更懂智能化」的專業視角,帶來一線獨家報道,敬請關注!
