Claude 4正式发布,我在兴奋中恍惚的问:程序员路在何方?

有些疯狂,我都不知道明年的这时候,世界会变成什么样。简而言之,Anthropic 在早晨发布了最新一代大模型 Claude Opus 4 和 Claude Sonnet 4。

新模型的亮点是推理、编程和复杂任务的解决能力。从种种数据来看,这两个新模型在复杂推理和工具使用方面已经超越了 GPT-4.1、o3 和 Gemini 2.5 Pro。

Opus 4 是 Anthropic 目前最强的 AI,号称能“连续工作好几个小时”。官方举了个例子,Opus 4 在用户测试里,能自主运行长达 7 小时,大幅提升了 AI 自动化的可能性。

Anthropic 还直接把 Opus 4 称为“全球最强编程模型”,在自家基准测试里,它在写代码和用各种工具(比如联网搜索)方面都超过了 Google Gemini 2.5 Pro、OpenAI 的 o3 reasoning 和 GPT-4.1。

相比之下,Claude Sonnet 4 走的是“高性价比+高效率”路线,更适合日常使用,替代了今年 2 月上线的 3.7 Sonnet。Anthropic 说,Sonnet 4 不仅代码能力更强、推理更准确,回复也更精准了。

两款新模型还有个共同提升:它们比上代模型(3.7 Sonnet)更不容易“投机取巧”地完成任务,出错概率低 65%。如果你给 Claude 本地文件访问权限,它们在做长时间、分阶段任务时,记忆力也大幅提升。

Anthropic 从去年开始,把模型的方向聚焦到提升 Claude 执行复杂任务(如研究和编程,甚至能编写完整代码库)的能力。

Anthropic 首席科学官 Jared Kaplan 表示:“任务越复杂,模型‘跑偏’的风险就越大……我们正专注于解决这个问题,让用户能够真正一次性委托大量工作给我们的模型。”

目前来看,他们家的模型也是当前行业最好的编程模型。包括 Cursor、Windsurf 等产品,都依赖于他们的模型才能取得令人满意的效果。

Opus 4 和 Sonnet 4 目前已经在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上线,并且都包含在 Claude 的付费套餐里,支持扩展思考模式。免费用户目前只能试用 Sonnet 4。

除了编程之外,新模型在写作方面的表现也很好。本质上,写作和编程是一件事。

Anthropic 首席产品官 Mike Krieger 在采访中表示,他我经常用 Claude 写作,在 Opus 4 和 Sonnet 4 之前,主要把模型当作思考伙伴,大部分写作还是自己完成。但现在大部分写作其实都是 Opus 完成的,几乎已经和他的写作风格无法区分。

知名内容社区 Every 的 CEO 也提到了 Claude 4 在写作方面的表现:

Mike Krieger 还透露说,接下来公司会在两个方向上重点探索。一方面是编程和 Agent 行为,这推动了许多编程初创公司;另一方面,也在推动模型如何学习并成为真正有用的写作伙伴。

这反过来也印证了 OpenAI 研究院姚顺雨前段时间对大模型下半场的论断。上半场,大家卷算法、卷参数,目标是构建一个更聪明的模型。而下半场,能够提升模型能力的手段已经编程定义问题,先定义清楚自己想解决什么问题,转而再根据场景和评估手段进行特性的调整。

等了一年,Claude 4 终于发布。这是一个多么美好的时代。目前,在 Cursor 中,已经可以试用刚刚发布的 Claude Sonnet 4。

那么,对程序员来说,这一切意味着什么?

老实说,这个问题没人能给出标准答案,但变革的浪潮已经不可逆转。过去一年,几乎所有做开发的人,都或多或少被 AI 助手“喂”过代码,或者直接让 AI 帮忙修 bug、查资料、跑自动化测试。

现在,AI 写代码的能力突飞猛进,而且不只是帮你补全几行代码,很多人已经开始用 Claude、GPT-4o、Gemini 这些模型来写完整的模块、甚至独立开发小工具。未来,AI 可能会变成你身边那个24小时不下班的“搭档”。

这可能是一个程序员“进化”的起点。最核心的变化,是角色的转变——从单纯“写代码的人”,变成“定义问题的人”。

我们要思考:我真正要解决什么需求?AI 生成的代码是不是贴合我的场景?最终的业务逻辑和产品体验,是不是被实现出来了?