Claude 4正式发布,我在兴奋中恍惚的问:程序员路在何方?

2025年05月23日13:42:04 科技 1169

Claude 4正式发布,我在兴奋中恍惚的问:程序员路在何方? - 天天要闻

有些疯狂,我都不知道明年的这时候,世界会变成什么样。简而言之,Anthropic 在早晨发布了最新一代大模型 Claude Opus 4 和 Claude Sonnet 4。

新模型的亮点是推理、编程和复杂任务的解决能力。从种种数据来看,这两个新模型在复杂推理和工具使用方面已经超越了 GPT-4.1、o3 和 Gemini 2.5 Pro。

Opus 4 是 Anthropic 目前最强的 AI,号称能“连续工作好几个小时”。官方举了个例子,Opus 4 在用户测试里,能自主运行长达 7 小时,大幅提升了 AI 自动化的可能性。

Anthropic 还直接把 Opus 4 称为“全球最强编程模型”,在自家基准测试里,它在写代码和用各种工具(比如联网搜索)方面都超过了 Google Gemini 2.5 Pro、OpenAI 的 o3 reasoning 和 GPT-4.1。

相比之下,Claude Sonnet 4 走的是“高性价比+高效率”路线,更适合日常使用,替代了今年 2 月上线的 3.7 Sonnet。Anthropic 说,Sonnet 4 不仅代码能力更强、推理更准确,回复也更精准了。

两款新模型还有个共同提升:它们比上代模型(3.7 Sonnet)更不容易“投机取巧”地完成任务,出错概率低 65%。如果你给 Claude 本地文件访问权限,它们在做长时间、分阶段任务时,记忆力也大幅提升。

Claude 4正式发布,我在兴奋中恍惚的问:程序员路在何方? - 天天要闻

Anthropic 从去年开始,把模型的方向聚焦到提升 Claude 执行复杂任务(如研究和编程,甚至能编写完整代码库)的能力。

Anthropic 首席科学官 Jared Kaplan 表示:“任务越复杂,模型‘跑偏’的风险就越大……我们正专注于解决这个问题,让用户能够真正一次性委托大量工作给我们的模型。”

目前来看,他们家的模型也是当前行业最好的编程模型。包括 Cursor、Windsurf 等产品,都依赖于他们的模型才能取得令人满意的效果。

Opus 4 和 Sonnet 4 目前已经在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上线,并且都包含在 Claude 的付费套餐里,支持扩展思考模式。免费用户目前只能试用 Sonnet 4。

除了编程之外,新模型在写作方面的表现也很好。本质上,写作和编程是一件事。

Anthropic 首席产品官 Mike Krieger 在采访中表示,他我经常用 Claude 写作,在 Opus 4 和 Sonnet 4 之前,主要把模型当作思考伙伴,大部分写作还是自己完成。但现在大部分写作其实都是 Opus 完成的,几乎已经和他的写作风格无法区分。

知名内容社区 Every 的 CEO 也提到了 Claude 4 在写作方面的表现:

Claude 4正式发布,我在兴奋中恍惚的问:程序员路在何方? - 天天要闻

Mike Krieger 还透露说,接下来公司会在两个方向上重点探索。一方面是编程和 Agent 行为,这推动了许多编程初创公司;另一方面,也在推动模型如何学习并成为真正有用的写作伙伴。

这反过来也印证了 OpenAI 研究院姚顺雨前段时间对大模型下半场的论断。上半场,大家卷算法、卷参数,目标是构建一个更聪明的模型。而下半场,能够提升模型能力的手段已经编程定义问题,先定义清楚自己想解决什么问题,转而再根据场景和评估手段进行特性的调整。

等了一年,Claude 4 终于发布。这是一个多么美好的时代。目前,在 Cursor 中,已经可以试用刚刚发布的 Claude Sonnet 4。

那么,对程序员来说,这一切意味着什么?

老实说,这个问题没人能给出标准答案,但变革的浪潮已经不可逆转。过去一年,几乎所有做开发的人,都或多或少被 AI 助手“喂”过代码,或者直接让 AI 帮忙修 bug、查资料、跑自动化测试。

现在,AI 写代码的能力突飞猛进,而且不只是帮你补全几行代码,很多人已经开始用 Claude、GPT-4o、Gemini 这些模型来写完整的模块、甚至独立开发小工具。未来,AI 可能会变成你身边那个24小时不下班的“搭档”。

这可能是一个程序员“进化”的起点。最核心的变化,是角色的转变——从单纯“写代码的人”,变成“定义问题的人”。

我们要思考:我真正要解决什么需求?AI 生成的代码是不是贴合我的场景?最终的业务逻辑和产品体验,是不是被实现出来了?

科技分类资讯推荐

大模型到底是怎么“思考”的?第一篇系统性综述SAE的文章来了 - 天天要闻

大模型到底是怎么“思考”的?第一篇系统性综述SAE的文章来了

作者介绍:本篇文章的作者团队来自美国四所知名高校:西北大学、乔治亚大学、新泽西理工学院和乔治梅森大学。第一作者束东与共同第一作者吴烜圣、赵海燕分别是上述高校的博士生,长期致力于大语言模型的可解释性研究,致力于揭示其内部机制与 “思维” 过程
预售价23.58万!全球首款L3级算力AI汽车小鹏G7首秀 - 天天要闻

预售价23.58万!全球首款L3级算力AI汽车小鹏G7首秀

2025 年 6 月 11 日,小鹏汽车年度重磅新作 —— 小鹏 G7 在广州举行全球首秀,以 “全球首款 L3 级算力 AI 汽车” 的姿态正式亮相,同步开启预售,Max 和 Ultra 两个版本预售价均为 23.58 万元。即日起至上市日,用户支付 200
华为云安全框架,助力企业笑对数字化浪潮下的安全挑战 - 天天要闻

华为云安全框架,助力企业笑对数字化浪潮下的安全挑战

当企业逐渐发展壮大、业务系统日益庞杂的同时,面对着喜人的报表,那些隐藏在水下的安全隐患虽然不易被发觉,却绝对无可忽视——Web应用暴露在公网,轻则遭遇恶意扫描和SQL注入,重则网站挂马、数据泄露;网络流量愈发复杂,传统防护手段难以适配;主机和服务器成为入侵者的隐秘据点,挖矿、勒索、后门程序层出不穷。在这个...
京东&天猫&抖音同时登顶!万和电气618全渠道实现霸榜 - 天天要闻

京东&天猫&抖音同时登顶!万和电气618全渠道实现霸榜

2025年618电商大促已经圆满收官,凭借 “天生可靠”的品牌内核以及“产品驱动”的战略主轴,万和电气在今年618交出了一份亮眼的成绩单:公司在京东、天猫、抖音三大平台增速全面领跑,多款旗舰产品霸榜细分品类,其中,万和安睡洗系列全渠道总销量突破35000台,同比增长90%,展现出强劲的品牌竞争力和市场认可度。 基于“产...
逆势增长62%!四特酒电商实力领航,以“特香”魅力开启增长新一极 - 天天要闻

逆势增长62%!四特酒电商实力领航,以“特香”魅力开启增长新一极

当中国白酒行业步入深度调整期,传统渠道增长放缓、消费场景结构性变化、年轻群体消费习惯迁移等多重因素交织,行业正经历一场静水深流的变革。据中国酒业协会数据显示,2024年白酒行业全国规模以上企业白酒产量414.47万千升,同比下降1.80%,销售收入7963.84亿元,同比增长5.30%,整体呈现“总量收缩、结构升级”特征。 在...
快评丨程序员住车里被质疑占用公共资源,错峰利用有何不可? - 天天要闻

快评丨程序员住车里被质疑占用公共资源,错峰利用有何不可?

不仅不是对公共资源的挤占,反而在更大程度上是对公共设施的充分利用40多岁的程序员张运来可能没想到,自己自诩惬意的生活方式,有一天会面临“占用公共资源”的指责。毕竟,他的短视频账号签名都是“常驻深圳湾公园的车内露营引领者”。坚持“车内露营”近4年,面对媒体他表示,曾有网友质疑他长年占用公园车位的做法,他...
一体抓实“三个管理”|以前头疼的任务,现在轻松完成 - 天天要闻

一体抓实“三个管理”|以前头疼的任务,现在轻松完成

《检察日报》6月22日 头版以前头疼的任务,现在轻松完成福建永安:开发案卡智能核查软件提升数据审核精准度每周五下午是福建省永安市检察院业务数据核查专员小陈固定的案卡核查时间。以前,这是她“最怕”的任务——面对海量数据,人工核查耗时费力,一个
未来十年中国无人驾驶出租车规模将增长757倍,《公共出行自动驾驶规模化发展与治理》报告发布 - 天天要闻

未来十年中国无人驾驶出租车规模将增长757倍,《公共出行自动驾驶规模化发展与治理》报告发布

6月17日,在“自动驾驶汽车规模化发展与治理研讨会”上,武汉大学数字经济发展与治理论坛联合武汉市社科院发布《从竞速到落地:公共出行自动驾驶规模化发展与治理》。重点梳理自动驾驶产业发展的现状、挑战和趋势,并结合公共出行自动驾驶汽车未来发展提出建议。 抢占战略机遇,自动驾驶汽车是新质生产力的典型代表 报告认...
强监管时代到来,对汽车行业意味着什么? - 天天要闻

强监管时代到来,对汽车行业意味着什么?

6月10日晚,中国第一汽车集团有限公司、东风汽车集团有限公司、广州汽车集团股份有限公司、赛力斯集团股份有限公司等四家汽车生产企业分别发表声明,就“支付账期不超过60天”作出承诺。