大家好,我是冷逸。
千呼萬喚始出來,deepseek v4終於發布了。
這次一共有2個版本,v4 pro和v4 flash,都是1m上下文,也都開源。
v4 pro,1.6t(1.6萬億)總參數,49b激活。
v4 flash,284b(2840億)總參數,13b激活。
在網頁端/app,v4 pro對應「專家模式」,v4 flash「快速模式」。

一圖看懂deepseek v4,圖由gpt生成
據deepseek自己介紹,v4的agent能力僅比肩claude sonnet 4.5,離opus 4.6、4.7還有差距;世界知識離gemini-pro-3.1還有差距;推理性能,與gpt-5.4旗鼓相當。
官方report也直言,「發展軌跡約滯後前沿閉源模型3到6個月」。
api價格方面,deepseek v4比v3.2有所上漲,v4 pro漲了約6倍,v4 flash降了約50%。另外,並沒有coding plan。
以上,來自官方信息。下面,我們基於實測來評估一下這個模型。

一手實測
1)編程:3d任務
先測一個3d任務,主要看模型的前端能力,考驗模型對空間想像和邏輯推理的能力。
提示詞:製作一個3d的雪山場景html,雪山中間有一個日式的寺廟,整體風格參考塞爾達曠野之息。
qwen3.6-plus:

glm-5.1:

deepseek v4 pro:

minimax m2.7:

gemini-3.1-pro:

為什麼不對比kimi k2.6?kimi說他有點累了,讓我晚點再問一下。
整體來看,「開源五傑」表現不一。
glm-5.1、qwen3.6-plus和gemini-3.1-pro在同一個水平,其他四家略遜一籌。
細節方面,glm-5.1和qwen3.6-plus是最強的。比如雪山粒子特效、日式建築還原、塞爾達風格參考,他倆的整體表現比其他模型都要更優一些。
deepseek v4 pro,在這個case中表現一般。
我又試了一個3d魔方的老case,v4能做到還原。
提示詞:create a single html file containing a fully functional 3d rubik's cube simulation using three.js (via cdn). the cube must be able to automatically solve itself.
中文:創建一個html文件,其中使用three.js(通過cdn方式引入)來實現一個功能完備的3d魔方模擬程序。該魔方必須能夠自動完成自己的「解謎」過程。

這個case,我也測過很多模型了。基本上,最新的模型都能one shot,一次跑通。
2)編程:skills任務
今天,藏師傅開源了一個極其牛逼的ppt skill「guizang-ppt-skill」。

skill地址:github.com/op7418/guizang-ppt-skil
生成的是一份html式ppt,也就幾十kb,可以發給任何人,在瀏覽器打開,字體、動畫都不會變。
對於這個skill,藏師傅說「這是他十年審美的壓縮包。」
我第一時間,就把這個skills裝到我的claude code里。直接對著你的claude code說這句話就行。
幫我安裝這個skill:https://github.com/op7418/guizang-ppt-skill,放在這個文件夾:c:\users\administrator\.claude\skills
然後,接入deepseek v4 pro跑了個case,讓它把我昨天的文章設計成10頁ppt。

給大家看下最終的效果。
整體排版、風格、字體搭配,我都非常滿意。差不多我再微調下文字(可用trae或文本編輯器來改),這套ppt可以直接拿去演講了。
3)編程:網站開發
需求是,讓deepseek v4 pro基於我給到的模特照片,做一個攝影師作品集的網站。
提示詞:我是拍模特廣告的攝影師,我的工作室叫「小逸攝影」,文件夾 d:\vibe coding\ds v4\模特圖片 放了一些模特圖片,給我生成一個高級審美、大師水準的攝影師作品網站,用上文件夾里的圖片並配上精美的講解。
qwen3.6-plus,之前已經測過,效果很驚艷。
來看下deepseek v4 pro的表現。
也是深色背景+hero全屏+網格畫廊,整個水準跟qwen3.6-plus差距不大。
如果要論細節的話,qwen3.6-plus在一些logo、文字配色和交互動畫上要更強一些。

qwen3.6-plus生成的首屏

deepseek v4 pro生成的首屏
4)agent長程任務
任務,還是我們的老case,讓claude code做一個聯網搜索+word生成+skill調用+網站開發的複雜長程任務。
提示詞:聯網搜索、調研張雪機車的發展軌跡,盡量從權威信源獲取信息。首先,給我創建一份5000字的word調研報告。然後,調用knowledge site creator skills給這份報告創建一個知識學習網站,頁面高級審美。
這個任務,deepseek v4 pro跑了很久,耗時33分鐘。

交付給我了2個東西,一個是word報告,一個是知識學習網站(帶後端)。
先看word報告。

內容還是挺全面的。最近,我高頻在用deepseek做信息檢索,回答質量一直都比較靠譜。相比去年的deepseek,現在的幻覺已經大幅下降。
然後,再看它生成的知識學習網站。

直接帶了後端+資料庫的功能,我添加數據後,這個網站就可以真實使用了。
以上4個case,一共消耗了450萬tokens,成本10元。蹲一個,deepseek啥時候出codingplan啊
。

5)世界知識任務
世界知識,要系統測起來,比較麻煩。
我問了一些陌生領域(關閉聯網,下同)的問題,它都能答得上來。

一些次新的知識,它也訓了進去。

但最新的,它不知道。

我問了下它的知識庫,說是訓練數據截止到2025年5月。

6)寫作任務
以我經常乾的事「讓ai續寫」來進行測試。
提示詞:
參考下文的風格續寫,300字:
現在,誰發我一張圖,我的第一反應都是:「這是不是gpt生成的?」
人類社會,大家能夠坐下來一起討論事情,最基本的前提是,我們活在同一個現實里,對最基礎的事實認知是一致的。
而今天,目光所及的一切都在崩塌。deepseek v4 pro的表現還行,但還是愛拽一些技術詞,比如錨點、腳本、圖靈測試等。

gpt-5的表現,明顯就更像人一些,說人話。

gpt,也一直是我的常用寫作模型。但自己要注意微調一下,比如讓它不要老說「不是…而是」,不要一直加破折號、冒號。
gemini-3.1-pro的表現繼續拉胯。拽那麼多成語一點用都沒有,跟原文的風格非常割裂。

上周,我跟大家分享了寫作經驗,很多人都在評論區說gemini 3.1/3.0遠不如gemini 2.5,確實如此。
claude-opus-4.6,這寫作能力依舊頂級。
