Claude 4正式發布,我在興奮中恍惚的問:程序員路在何方?

2025年05月23日13:42:04 科技 1169

Claude 4正式發布,我在興奮中恍惚的問:程序員路在何方? - 天天要聞

有些瘋狂,我都不知道明年的這時候,世界會變成什麼樣。簡而言之,Anthropic 在早晨發布了最新一代大模型 Claude Opus 4 和 Claude Sonnet 4。

新模型的亮點是推理、編程和複雜任務的解決能力。從種種數據來看,這兩個新模型在複雜推理和工具使用方面已經超越了 GPT-4.1、o3 和 Gemini 2.5 Pro。

Opus 4 是 Anthropic 目前最強的 AI,號稱能“連續工作好幾個小時”。官方舉了個例子,Opus 4 在用戶測試里,能自主運行長達 7 小時,大幅提升了 AI 自動化的可能性。

Anthropic 還直接把 Opus 4 稱為“全球最強編程模型”,在自家基準測試里,它在寫代碼和用各種工具(比如聯網搜索)方面都超過了 Google Gemini 2.5 Pro、OpenAI 的 o3 reasoning 和 GPT-4.1。

相比之下,Claude Sonnet 4 走的是“高性價比+高效率”路線,更適合日常使用,替代了今年 2 月上線的 3.7 Sonnet。Anthropic 說,Sonnet 4 不僅代碼能力更強、推理更準確,回復也更精準了。

兩款新模型還有個共同提升:它們比上代模型(3.7 Sonnet)更不容易“投機取巧”地完成任務,出錯概率低 65%。如果你給 Claude 本地文件訪問權限,它們在做長時間、分階段任務時,記憶力也大幅提升。

Claude 4正式發布,我在興奮中恍惚的問:程序員路在何方? - 天天要聞

Anthropic 從去年開始,把模型的方向聚焦到提升 Claude 執行複雜任務(如研究和編程,甚至能編寫完整代碼庫)的能力。

Anthropic 首席科學官 Jared Kaplan 表示:“任務越複雜,模型‘跑偏’的風險就越大……我們正專註於解決這個問題,讓用戶能夠真正一次性委託大量工作給我們的模型。”

目前來看,他們家的模型也是當前行業最好的編程模型。包括 Cursor、Windsurf 等產品,都依賴於他們的模型才能取得令人滿意的效果。

Opus 4 和 Sonnet 4 目前已經在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上線,並且都包含在 Claude 的付費套餐里,支持擴展思考模式。免費用戶目前只能試用 Sonnet 4。

除了編程之外,新模型在寫作方面的表現也很好。本質上,寫作和編程是一件事。

Anthropic 首席產品官 Mike Krieger 在採訪中表示,他我經常用 Claude 寫作,在 Opus 4 和 Sonnet 4 之前,主要把模型當作思考夥伴,大部分寫作還是自己完成。但現在大部分寫作其實都是 Opus 完成的,幾乎已經和他的寫作風格無法區分。

知名內容社區 Every 的 CEO 也提到了 Claude 4 在寫作方面的表現:

Claude 4正式發布,我在興奮中恍惚的問:程序員路在何方? - 天天要聞

Mike Krieger 還透露說,接下來公司會在兩個方向上重點探索。一方面是編程和 Agent 行為,這推動了許多編程初創公司;另一方面,也在推動模型如何學習並成為真正有用的寫作夥伴。

這反過來也印證了 OpenAI 研究院姚順雨前段時間對大模型下半場的論斷。上半場,大家卷算法、卷參數,目標是構建一個更聰明的模型。而下半場,能夠提升模型能力的手段已經編程定義問題,先定義清楚自己想解決什麼問題,轉而再根據場景和評估手段進行特性的調整。

等了一年,Claude 4 終於發布。這是一個多麼美好的時代。目前,在 Cursor 中,已經可以試用剛剛發布的 Claude Sonnet 4。

那麼,對程序員來說,這一切意味着什麼?

老實說,這個問題沒人能給出標準答案,但變革的浪潮已經不可逆轉。過去一年,幾乎所有做開發的人,都或多或少被 AI 助手“喂”過代碼,或者直接讓 AI 幫忙修 bug、查資料、跑自動化測試。

現在,AI 寫代碼的能力突飛猛進,而且不只是幫你補全幾行代碼,很多人已經開始用 Claude、GPT-4o、Gemini 這些模型來寫完整的模塊、甚至獨立開發小工具。未來,AI 可能會變成你身邊那個24小時不下班的“搭檔”。

這可能是一個程序員“進化”的起點。最核心的變化,是角色的轉變——從單純“寫代碼的人”,變成“定義問題的人”。

我們要思考:我真正要解決什麼需求?AI 生成的代碼是不是貼合我的場景?最終的業務邏輯和產品體驗,是不是被實現出來了?

科技分類資訊推薦

大模型到底是怎麼「思考」的?第一篇系統性綜述SAE的文章來了 - 天天要聞

大模型到底是怎麼「思考」的?第一篇系統性綜述SAE的文章來了

作者介紹:本篇文章的作者團隊來自美國四所知名高校:西北大學、喬治亞大學、新澤西理工學院和喬治梅森大學。第一作者束東與共同第一作者吳烜聖、趙海燕分別是上述高校的博士生,長期致力於大語言模型的可解釋性研究,致力於揭示其內部機制與 “思維” 過程
預售價23.58萬!全球首款L3級算力AI汽車小鵬G7首秀 - 天天要聞

預售價23.58萬!全球首款L3級算力AI汽車小鵬G7首秀

2025 年 6 月 11 日,小鵬汽車年度重磅新作 —— 小鵬 G7 在廣州舉行全球首秀,以 “全球首款 L3 級算力 AI 汽車” 的姿態正式亮相,同步開啟預售,Max 和 Ultra 兩個版本預售價均為 23.58 萬元。即日起至上市日,用戶支付 200
華為雲安全框架,助力企業笑對數字化浪潮下的安全挑戰 - 天天要聞

華為雲安全框架,助力企業笑對數字化浪潮下的安全挑戰

當企業逐漸發展壯大、業務系統日益龐雜的同時,面對着喜人的報表,那些隱藏在水下的安全隱患雖然不易被發覺,卻絕對無可忽視——Web應用暴露在公網,輕則遭遇惡意掃描和SQL注入,重則網站掛馬、數據泄露;網絡流量愈發複雜,傳統防護手段難以適配;主機和服務器成為入侵者的隱秘據點,挖礦、勒索、後門程序層出不窮。在這個...
京東&天貓&抖音同時登頂!萬和電氣618全渠道實現霸榜 - 天天要聞

京東&天貓&抖音同時登頂!萬和電氣618全渠道實現霸榜

2025年618電商大促已經圓滿收官,憑藉 “天生可靠”的品牌內核以及“產品驅動”的戰略主軸,萬和電氣在今年618交出了一份亮眼的成績單:公司在京東、天貓、抖音三大平台增速全面領跑,多款旗艦產品霸榜細分品類,其中,萬和安睡洗系列全渠道總銷量突破35000台,同比增長90%,展現出強勁的品牌競爭力和市場認可度。 基於“產...
逆勢增長62%!四特酒電商實力領航,以“特香”魅力開啟增長新一極 - 天天要聞

逆勢增長62%!四特酒電商實力領航,以“特香”魅力開啟增長新一極

當中國白酒行業步入深度調整期,傳統渠道增長放緩、消費場景結構性變化、年輕群體消費習慣遷移等多重因素交織,行業正經歷一場靜水深流的變革。據中國酒業協會數據顯示,2024年白酒行業全國規模以上企業白酒產量414.47萬千升,同比下降1.80%,銷售收入7963.84億元,同比增長5.30%,整體呈現“總量收縮、結構升級”特徵。 在...
快評丨程序員住車裡被質疑佔用公共資源,錯峰利用有何不可? - 天天要聞

快評丨程序員住車裡被質疑佔用公共資源,錯峰利用有何不可?

不僅不是對公共資源的擠占,反而在更大程度上是對公共設施的充分利用40多歲的程序員張運來可能沒想到,自己自詡愜意的生活方式,有一天會面臨“佔用公共資源”的指責。畢竟,他的短視頻賬號簽名都是“常駐深圳灣公園的車內露營引領者”。堅持“車內露營”近4年,面對媒體他表示,曾有網友質疑他長年佔用公園車位的做法,他...
一體抓實“三個管理”|以前頭疼的任務,現在輕鬆完成 - 天天要聞

一體抓實“三個管理”|以前頭疼的任務,現在輕鬆完成

《檢察日報》6月22日 頭版以前頭疼的任務,現在輕鬆完成福建永安:開發案卡智能核查軟件提升數據審核精準度每周五下午是福建省永安市檢察院業務數據核查專員小陳固定的案卡核查時間。以前,這是她“最怕”的任務——面對海量數據,人工核查耗時費力,一個
未來十年中國無人駕駛出租車規模將增長757倍,《公共出行自動駕駛規模化發展與治理》報告發布 - 天天要聞

未來十年中國無人駕駛出租車規模將增長757倍,《公共出行自動駕駛規模化發展與治理》報告發布

6月17日,在“自動駕駛汽車規模化發展與治理研討會”上,武漢大學數字經濟發展與治理論壇聯合武漢市社科院發布《從競速到落地:公共出行自動駕駛規模化發展與治理》。重點梳理自動駕駛產業發展的現狀、挑戰和趨勢,並結合公共出行自動駕駛汽車未來發展提出建議。 搶佔戰略機遇,自動駕駛汽車是新質生產力的典型代表 報告認...
強監管時代到來,對汽車行業意味着什麼? - 天天要聞

強監管時代到來,對汽車行業意味着什麼?

6月10日晚,中國第一汽車集團有限公司、東風汽車集團有限公司、廣州汽車集團股份有限公司、賽力斯集團股份有限公司等四家汽車生產企業分別發表聲明,就“支付賬期不超過60天”作出承諾。