Claude 4正式发布，我在兴奋中恍惚的问：程序员路在何方？

2025年05月23日13:42:04 科技 1169

有些疯狂，我都不知道明年的这时候，世界会变成什么样。简而言之，Anthropic 在早晨发布了最新一代大模型 Claude Opus 4 和 Claude Sonnet 4。

新模型的亮点是推理、编程和复杂任务的解决能力。从种种数据来看，这两个新模型在复杂推理和工具使用方面已经超越了 GPT-4.1、o3 和 Gemini 2.5 Pro。

Opus 4 是 Anthropic 目前最强的 AI，号称能“连续工作好几个小时”。官方举了个例子，Opus 4 在用户测试里，能自主运行长达 7 小时，大幅提升了 AI 自动化的可能性。

Anthropic 还直接把 Opus 4 称为“全球最强编程模型”，在自家基准测试里，它在写代码和用各种工具（比如联网搜索）方面都超过了 Google Gemini 2.5 Pro、OpenAI 的 o3 reasoning 和 GPT-4.1。

相比之下，Claude Sonnet 4 走的是“高性价比+高效率”路线，更适合日常使用，替代了今年 2 月上线的 3.7 Sonnet。Anthropic 说，Sonnet 4 不仅代码能力更强、推理更准确，回复也更精准了。

两款新模型还有个共同提升：它们比上代模型（3.7 Sonnet）更不容易“投机取巧”地完成任务，出错概率低 65%。如果你给 Claude 本地文件访问权限，它们在做长时间、分阶段任务时，记忆力也大幅提升。

Anthropic 从去年开始，把模型的方向聚焦到提升 Claude 执行复杂任务（如研究和编程，甚至能编写完整代码库）的能力。

Anthropic 首席科学官 Jared Kaplan 表示：“任务越复杂，模型‘跑偏’的风险就越大……我们正专注于解决这个问题，让用户能够真正一次性委托大量工作给我们的模型。”

目前来看，他们家的模型也是当前行业最好的编程模型。包括 Cursor、Windsurf 等产品，都依赖于他们的模型才能取得令人满意的效果。

Opus 4 和 Sonnet 4 目前已经在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上线，并且都包含在 Claude 的付费套餐里，支持扩展思考模式。免费用户目前只能试用 Sonnet 4。

除了编程之外，新模型在写作方面的表现也很好。本质上，写作和编程是一件事。

Anthropic 首席产品官 Mike Krieger 在采访中表示，他我经常用 Claude 写作，在 Opus 4 和 Sonnet 4 之前，主要把模型当作思考伙伴，大部分写作还是自己完成。但现在大部分写作其实都是 Opus 完成的，几乎已经和他的写作风格无法区分。

知名内容社区 Every 的 CEO 也提到了 Claude 4 在写作方面的表现：

Mike Krieger 还透露说，接下来公司会在两个方向上重点探索。一方面是编程和 Agent 行为，这推动了许多编程初创公司；另一方面，也在推动模型如何学习并成为真正有用的写作伙伴。

这反过来也印证了 OpenAI 研究院姚顺雨前段时间对大模型下半场的论断。上半场，大家卷算法、卷参数，目标是构建一个更聪明的模型。而下半场，能够提升模型能力的手段已经编程定义问题，先定义清楚自己想解决什么问题，转而再根据场景和评估手段进行特性的调整。

等了一年，Claude 4 终于发布。这是一个多么美好的时代。目前，在 Cursor 中，已经可以试用刚刚发布的 Claude Sonnet 4。

那么，对程序员来说，这一切意味着什么？

老实说，这个问题没人能给出标准答案，但变革的浪潮已经不可逆转。过去一年，几乎所有做开发的人，都或多或少被 AI 助手“喂”过代码，或者直接让 AI 帮忙修 bug、查资料、跑自动化测试。

现在，AI 写代码的能力突飞猛进，而且不只是帮你补全几行代码，很多人已经开始用 Claude、GPT-4o、Gemini 这些模型来写完整的模块、甚至独立开发小工具。未来，AI 可能会变成你身边那个24小时不下班的“搭档”。

这可能是一个程序员“进化”的起点。最核心的变化，是角色的转变——从单纯“写代码的人”，变成“定义问题的人”。

我们要思考：我真正要解决什么需求？AI 生成的代码是不是贴合我的场景？最终的业务逻辑和产品体验，是不是被实现出来了？

雨姐今天做小鸡炖大鹅，老香了#东北#生活...