實測DeepSeek V4：不炸裂了，但在做更重要的事

2026年04月25日08:20:14 家居 2921

大家好，我是冷逸。

千呼萬喚始出來，deepseek v4終於發布了。

這次一共有2個版本，v4 pro和v4 flash，都是1m上下文，也都開源。

v4 pro，1.6t（1.6萬億）總參數，49b激活。
v4 flash，284b（2840億）總參數，13b激活。

在網頁端/app，v4 pro對應「專家模式」，v4 flash「快速模式」。

一圖看懂deepseek v4，圖由gpt生成

據deepseek自己介紹，v4的agent能力僅比肩claude sonnet 4.5，離opus 4.6、4.7還有差距；世界知識離gemini-pro-3.1還有差距；推理性能，與gpt-5.4旗鼓相當。

官方report也直言，「發展軌跡約滯後前沿閉源模型3到6個月」。

api價格方面，deepseek v4比v3.2有所上漲，v4 pro漲了約6倍，v4 flash降了約50%。另外，並沒有coding plan。

以上，來自官方信息。下面，我們基於實測來評估一下這個模型。

一手實測

1）編程：3d任務

先測一個3d任務，主要看模型的前端能力，考驗模型對空間想像和邏輯推理的能力。

提示詞：製作一個3d的雪山場景html，雪山中間有一個日式的寺廟，整體風格參考塞爾達曠野之息。

qwen3.6-plus：

glm-5.1：

deepseek v4 pro：

minimax m2.7：

gemini-3.1-pro：

為什麼不對比kimi k2.6？kimi說他有點累了，讓我晚點再問一下。

整體來看，「開源五傑」表現不一。

glm-5.1、qwen3.6-plus和gemini-3.1-pro在同一個水平，其他四家略遜一籌。

細節方面，glm-5.1和qwen3.6-plus是最強的。比如雪山粒子特效、日式建築還原、塞爾達風格參考，他倆的整體表現比其他模型都要更優一些。

deepseek v4 pro，在這個case中表現一般。

我又試了一個3d魔方的老case，v4能做到還原。

提示詞：create a single html file containing a fully functional 3d rubik's cube simulation using three.js (via cdn). the cube must be able to automatically solve itself.
中文：創建一個html文件，其中使用three.js（通過cdn方式引入）來實現一個功能完備的3d魔方模擬程序。該魔方必須能夠自動完成自己的「解謎」過程。

這個case，我也測過很多模型了。基本上，最新的模型都能one shot，一次跑通。

2）編程：skills任務

今天，藏師傅開源了一個極其牛逼的ppt skill「guizang-ppt-skill」。

skill地址：github.com/op7418/guizang-ppt-skil

生成的是一份html式ppt，也就幾十kb，可以發給任何人，在瀏覽器打開，字體、動畫都不會變。

對於這個skill，藏師傅說「這是他十年審美的壓縮包。」

我第一時間，就把這個skills裝到我的claude code里。直接對著你的claude code說這句話就行。

幫我安裝這個skill：https://github.com/op7418/guizang-ppt-skill，放在這個文件夾：c:\users\administrator\.claude\skills

然後，接入deepseek v4 pro跑了個case，讓它把我昨天的文章設計成10頁ppt。

給大家看下最終的效果。

整體排版、風格、字體搭配，我都非常滿意。差不多我再微調下文字（可用trae或文本編輯器來改），這套ppt可以直接拿去演講了。

3）編程：網站開發

需求是，讓deepseek v4 pro基於我給到的模特照片，做一個攝影師作品集的網站。

提示詞：我是拍模特廣告的攝影師，我的工作室叫「小逸攝影」，文件夾 d:\vibe coding\ds v4\模特圖片放了一些模特圖片，給我生成一個高級審美、大師水準的攝影師作品網站，用上文件夾里的圖片並配上精美的講解。

qwen3.6-plus，之前已經測過，效果很驚艷。

來看下deepseek v4 pro的表現。

也是深色背景+hero全屏+網格畫廊，整個水準跟qwen3.6-plus差距不大。

如果要論細節的話，qwen3.6-plus在一些logo、文字配色和交互動畫上要更強一些。

qwen3.6-plus生成的首屏

deepseek v4 pro生成的首屏

4）agent長程任務

任務，還是我們的老case，讓claude code做一個聯網搜索+word生成+skill調用+網站開發的複雜長程任務。

提示詞：聯網搜索、調研張雪機車的發展軌跡，盡量從權威信源獲取信息。首先，給我創建一份5000字的word調研報告。然後，調用knowledge site creator skills給這份報告創建一個知識學習網站，頁面高級審美。

這個任務，deepseek v4 pro跑了很久，耗時33分鐘。

交付給我了2個東西，一個是word報告，一個是知識學習網站（帶後端）。

先看word報告。

內容還是挺全面的。最近，我高頻在用deepseek做信息檢索，回答質量一直都比較靠譜。相比去年的deepseek，現在的幻覺已經大幅下降。

然後，再看它生成的知識學習網站。

直接帶了後端+資料庫的功能，我添加數據後，這個網站就可以真實使用了。

以上4個case，一共消耗了450萬tokens，成本10元。蹲一個，deepseek啥時候出codingplan啊。

5）世界知識任務

世界知識，要系統測起來，比較麻煩。

我問了一些陌生領域（關閉聯網，下同）的問題，它都能答得上來。

一些次新的知識，它也訓了進去。

但最新的，它不知道。

我問了下它的知識庫，說是訓練數據截止到2025年5月。

6）寫作任務

以我經常乾的事「讓ai續寫」來進行測試。

提示詞：
參考下文的風格續寫，300字：
現在，誰發我一張圖，我的第一反應都是：「這是不是gpt生成的？」
人類社會，大家能夠坐下來一起討論事情，最基本的前提是，我們活在同一個現實里，對最基礎的事實認知是一致的。
而今天，目光所及的一切都在崩塌。

deepseek v4 pro的表現還行，但還是愛拽一些技術詞，比如錨點、腳本、圖靈測試等。

gpt-5的表現，明顯就更像人一些，說人話。

gpt，也一直是我的常用寫作模型。但自己要注意微調一下，比如讓它不要老說「不是…而是」，不要一直加破折號、冒號。

gemini-3.1-pro的表現繼續拉胯。拽那麼多成語一點用都沒有，跟原文的風格非常割裂。

上周，我跟大家分享了寫作經驗，很多人都在評論區說gemini 3.1/3.0遠不如gemini 2.5，確實如此。

claude-opus-4.6，這寫作能力依舊頂級。

家居

從一場花卉展到全民共創的節日！前灘不止於走過，而是觸手可及的美好生活

「五一」假期首日，前灘人氣爆棚，人流如織。4月18日起，「繁花綻浦東」2026上海國際花卉節浦東分會場開幕，打造沉浸式超長花期，讓春日繁花惠及全城、人人皆可盡享春光。截至5月1日，世博前灘區域共吸引市民遊客358萬人次，較去年同期增長46%，吸引廣大市民遊客的不僅有作為前灘濱江的核心景觀主軸的1.5公里繡球花道，穿梭...

05月02日 8158