
新智元报道
新智元报道
【新智元导读】anthropic联合创始人兼首席科学家jared kaplan抛出重磅预测:人类水平的ai(agi)可能在2-3年内实现,而非此前预计的2030年。从ai能力的飞速扩展到claude 4的即将发布,再到deepseek等全球竞争者的崛起,kaplan为我们揭示了ai领域的最新突破与挑战。
提到anthropic,大家首先想到的可能是它的联合创始人、ceo dario amodei。
这位明星ceo经常出现在各种场合,不时抛出一个「爆炸」言论。
不过,anthropic的另一位联合创始人,也是他们的首席科学家jared kaplan则鲜少露面。
近日,他参加了azeem azhar的一档访谈节目,并抛出了一个与dario类似的观点。
「人类水平的人工智能两三年内就会到来,不用等到2030年。」
这位略显神秘的大佬表示,ai现在能够处理的任务愈加复杂,甚至有些任务连人类专家也需要花费几个小时,甚至几天才能完成。

kaplan曾在去年预测实现人类水平的ai(agi)需要到2030年,但现在他更倾向于2到3年内到来。
不过,「人类水平」的ai并不是一个可以清晰界定的标准。
kaplan提出了衡量ai能力的两个重要维度。
一个是ai能够操作的环境范围。
从最初只能在围棋棋盘上操作的alphago,到如今可以理解文本、图像,甚至最终可能化身为机器人进入物理世界,ai的操作范围不断延伸。
其二是ai能够处理任务的复杂程度。
他回顾早期的语言模型(如bert)处理的都是1秒级的任务,比如看一个句子找出里面的名词。到了gpt-3,能处理的是10秒级的任务。
现在,像claude 3.7 sonet这样的最新模型,已经能够完成人类研究生需花费半天的复杂任务,例如分析和提炼长达20,000字的文本。
ai在这两个维度上都快速地扩展。
kaplan表示,ai能力的快速提升有多种因素:
模型智能的整体提升使其能够关注和处理更多不同的问题。
上下文窗口长度的持续扩展使ai能够理解和处理更长的文本,从段落到书籍,从而增强其理解能力。
通过强化学习训练ai执行更复杂的任务。

claude 3已经发布了一年多的时间,kaplan预计新一代的claude 4将会在接下来的六个月内发布。

「一方面,我们在后训练跟强化学习上有了改进,让claude能通过更多测试;另一方面,我们从预训练中提升了效率。」kaplan说,短期内这种势头不会减慢。
对于测试时扩展(test-time scaling),kaplan觉得这是个大突破。
简单来说,就是让ai多想一会儿,性能就能可预测地变好,尤其是在那种光靠思考就能提高表现的困难问题上。
比如让claude 3.7想2000个token、4000个token、8000个token,每次思考量翻倍,性能就能稳定提升。
这种方式还能扩展到同时生成好几个答案,然后让ai挑个最好的。
kaplan解释说:「对于特别难的任务,你可以选一个更聪明的模型快速搞定,或者让一个普通点的模型多花点时间,效果可能差不多。」
不过这也带来了新挑战:模型得学会判断什么时候多想一会儿。
kaplan打了个比方:「就像你刚换了个新工作,老板给你个难题,你肯定得花大把时间琢磨,因为你想答对,不想被炒鱿鱼。但一旦你适应这个工作,可能随手就给出一个答案。」

deepseek发布的r1模型引发全球热议,展现出了令人惊艳的推理能力。
kaplan对此并不意外,「我关注deepseek的进展至少有一年半了。他们一直在发表论文、优化模型,所以这对我们或anthropic来说并不算太大的惊喜。」
这话透露出顶尖ai实验室之间对彼此的研究非常的熟悉。
他倒觉得全球的反应挺有趣:「很多人惊呼,『哇,中国竟然有这么厉害的模型!』我跟一些美国人聊过,他们过去总觉得中国可能落后好几年。但看看deepseek的论文,他们的进展其实很明显,可能只差六个月,不会太远。」
这也反映出中美两国在ai发展方面的差距正在缩小。
kaplan表示,ai研究的突破来得特别快。这种飞速进步不是因为科学家突然变聪明了,而是因为ai这个领域就像个秋天的果园,挂满了低垂的果子,迭代改进的空间很大。
他进一步说,算力硬件限制可能会让西方公司在硬件资源上占优,这对deepseek和其他公司来说可能是个挑战。
但在算法本身上,所有顶尖ai公司都在找简单、有效、可扩展的方法。
deepseek的论文里也提到了这些思路和技术,他们在算法上完全有竞争力,没理由落后。

访谈的最后聚焦在了ai对经济和社会的潜在影响上。
ai对生产力和劳动力市场的影响,可能会比历史上的任何重大技术变革来得更快。
kaplan对此深以为然,他坦言:「我觉得我们对ai会如何改变社会和生产力的思考,可能远远不够。随着ai能够完成的事情越来越多,人类可能会通过其他活动,或者用ai来放大自己的能力来实现不同。」
他同时强调了实证研究的关键作用。
比如ai是起到互补作用?还是提升了生产力?它会在多大程度上替代原本由人完成的任务?kaplan说他们正把这些数据开放给经济学家去分析。
他还特别提到ai在软件工程领域的应用,抛出了一个更深层次的问题:「像我们在软件工程中看到的这么多人用ai,这种趋势会扩散到所有知识工作吗?还是会慢得多?它又会怎样渗透进我们的日常生活?」
从claude 4的突破到deepseek的异军突起,全球ai竞赛正以前所未有的速度推进。
它将如何改变我们的工作、生活乃至整个世界?
正如kaplan所言,答案或许藏在数据与实证研究中,而我们每个人都将是这场变革的见证者和参与者。