Claude 4正式發布,我在興奮中恍惚的問:程序員路在何方?

有些瘋狂,我都不知道明年的這時候,世界會變成什麼樣。簡而言之,Anthropic 在早晨發布了最新一代大模型 Claude Opus 4 和 Claude Sonnet 4。

新模型的亮點是推理、編程和複雜任務的解決能力。從種種數據來看,這兩個新模型在複雜推理和工具使用方面已經超越了 GPT-4.1、o3 和 Gemini 2.5 Pro。

Opus 4 是 Anthropic 目前最強的 AI,號稱能“連續工作好幾個小時”。官方舉了個例子,Opus 4 在用戶測試里,能自主運行長達 7 小時,大幅提升了 AI 自動化的可能性。

Anthropic 還直接把 Opus 4 稱為“全球最強編程模型”,在自家基準測試里,它在寫代碼和用各種工具(比如聯網搜索)方面都超過了 Google Gemini 2.5 Pro、OpenAI 的 o3 reasoning 和 GPT-4.1。

相比之下,Claude Sonnet 4 走的是“高性價比+高效率”路線,更適合日常使用,替代了今年 2 月上線的 3.7 Sonnet。Anthropic 說,Sonnet 4 不僅代碼能力更強、推理更準確,回復也更精準了。

兩款新模型還有個共同提升:它們比上代模型(3.7 Sonnet)更不容易“投機取巧”地完成任務,出錯概率低 65%。如果你給 Claude 本地文件訪問權限,它們在做長時間、分階段任務時,記憶力也大幅提升。

Anthropic 從去年開始,把模型的方向聚焦到提升 Claude 執行複雜任務(如研究和編程,甚至能編寫完整代碼庫)的能力。

Anthropic 首席科學官 Jared Kaplan 表示:“任務越複雜,模型‘跑偏’的風險就越大……我們正專註於解決這個問題,讓用戶能夠真正一次性委託大量工作給我們的模型。”

目前來看,他們家的模型也是當前行業最好的編程模型。包括 Cursor、Windsurf 等產品,都依賴於他們的模型才能取得令人滿意的效果。

Opus 4 和 Sonnet 4 目前已經在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上線,並且都包含在 Claude 的付費套餐里,支持擴展思考模式。免費用戶目前只能試用 Sonnet 4。

除了編程之外,新模型在寫作方面的表現也很好。本質上,寫作和編程是一件事。

Anthropic 首席產品官 Mike Krieger 在採訪中表示,他我經常用 Claude 寫作,在 Opus 4 和 Sonnet 4 之前,主要把模型當作思考夥伴,大部分寫作還是自己完成。但現在大部分寫作其實都是 Opus 完成的,幾乎已經和他的寫作風格無法區分。

知名內容社區 Every 的 CEO 也提到了 Claude 4 在寫作方面的表現:

Mike Krieger 還透露說,接下來公司會在兩個方向上重點探索。一方面是編程和 Agent 行為,這推動了許多編程初創公司;另一方面,也在推動模型如何學習並成為真正有用的寫作夥伴。

這反過來也印證了 OpenAI 研究院姚順雨前段時間對大模型下半場的論斷。上半場,大家卷算法、卷參數,目標是構建一個更聰明的模型。而下半場,能夠提升模型能力的手段已經編程定義問題,先定義清楚自己想解決什麼問題,轉而再根據場景和評估手段進行特性的調整。

等了一年,Claude 4 終於發布。這是一個多麼美好的時代。目前,在 Cursor 中,已經可以試用剛剛發布的 Claude Sonnet 4。

那麼,對程序員來說,這一切意味着什麼?

老實說,這個問題沒人能給出標準答案,但變革的浪潮已經不可逆轉。過去一年,幾乎所有做開發的人,都或多或少被 AI 助手“喂”過代碼,或者直接讓 AI 幫忙修 bug、查資料、跑自動化測試。

現在,AI 寫代碼的能力突飛猛進,而且不只是幫你補全幾行代碼,很多人已經開始用 Claude、GPT-4o、Gemini 這些模型來寫完整的模塊、甚至獨立開發小工具。未來,AI 可能會變成你身邊那個24小時不下班的“搭檔”。

這可能是一個程序員“進化”的起點。最核心的變化,是角色的轉變——從單純“寫代碼的人”,變成“定義問題的人”。

我們要思考:我真正要解決什麼需求?AI 生成的代碼是不是貼合我的場景?最終的業務邏輯和產品體驗,是不是被實現出來了?