在人工智能技术飞速发展的当下,大语言模型(LLM)已成为人们处理信息、解决问题的得力助手。然而,当面对需要跨越海量信息、探索未知领域的复杂研究任务时,单一的大语言模型往往会暴露出局限性。为突破这一瓶颈,Anthropic 的工程师们精心构建了一套先进的多智能体研究系统,并将其巧妙整合为 Claude 的 “研究”(Research)功能。近期,Anthropic 详细分享了该系统从原型到产品的全过程,为我们揭开了构建一个高效、可靠智能体系统的神秘面纱,其中蕴含的核心原则、架构设计和工程智慧,极具探索价值与借鉴意义。
在深入剖析 Anthropic 的多智能体研究系统之前,我们有必要先明晰研究工作的特性以及单一大语言模型在其中面临的挑战。研究工作本质上具有开放性和动态性,其过程难以预设固定路径,需要根据研究过程中的新发现不断灵活调整方向。这恰恰与 AI 智能体的优势相契合,智能体能够依据环境变化自主决策、灵活行动。但单智能体在应对复杂查询时,尤其是那些需要 “广度优先” 搜索的任务,因其顺序执行的特性,效率往往不尽人意。例如,当需要从互联网的海量信息中收集特定主题的多方面资料时,单智能体可能需要依次遍历各个信息源,耗时较长且容易遗漏重要信息。
多智能体系统的出现,为解决上述难题提供了创新思路。该系统的核心理念在于 “压缩”,即从海量信息中高效提炼有价值的洞见。在这一系统中,多个 “子智能体”(Subagents)如同训练有素的专业人员,能够并行工作。它们各自拥有独立的上下文窗口,可同时探索问题的不同方面。这种分工协作模式带来了诸多显著优势。一方面,减少了路径依赖,避免了单智能体因遵循单一搜索路径而可能错过其他重要信息的情况;另一方面,实现了关注点分离,不同的子智能体能够根据自身特长,使用不同的工具或提示进行工作。例如,在进行一项关于新型材料研发的研究任务时,有的子智能体专注于学术文献数据库,搜索最新的科研成果;有的子智能体则着眼于专利数据库,查找相关的技术专利;还有的子智能体从行业新闻资讯中收集市场动态和应用案例等信息。
通过这种并行压缩与分工协作,多智能体系统在性能上实现了质的飞跃。Anthropic 的内部评估数据有力地证明了这一点:在处理需要分解任务的复杂查询时,如 “找出标普 500 信息技术板块所有公司的董事会成员”,一个由 Claude Opus 4 担任主智能体、Claude Sonnet 4 担任子智能体的多智能体系统,其性能比单个 Claude Opus 4 智能体高出 90.2%。这一数据充分彰显了多智能体系统在复杂任务处理中的强大优势。
当然,强大的性能并非毫无代价。多智能体系统在运行过程中是 “token 消耗大户”。数据显示,智能体交互的 token 消耗约为普通聊天的 4 倍,而多智能体系统更是高达 15 倍。这意味着运行多智能体系统需要投入更多的计算资源和成本。因此,这类系统最适用于那些能够通过其卓越性能创造足够高价值的任务,如大型企业的战略决策分析、前沿科学研究等领域,在这些场景中,多智能体系统所带来的高效和精准能够显著提升工作成果的质量和价值,从而弥补其资源消耗的成本。
Anthropic 的研究系统采用了经典的 “指挥家 - 演奏家”(Orchestrator - Worker)模式,这种模式为系统的高效运行奠定了坚实基础。当用户提交一个复杂查询后,系统首先会创建一个主智能体,它如同交响乐中的指挥家,承担着多重关键职责。在理解和规划阶段,主智能体凭借强大的语义理解能力,深入分析用户意图,进而制定出全面且细致的研究策略。随后,主智能体将大任务巧妙分解为多个独立的子任务,并依据每个子任务的特性,为其创建专门的 “子智能体”,如同指挥家为乐团成员分配各自的演奏任务。在任务执行过程中,主智能体持续关注子智能体的工作进展,汇总它们返回的信息,并运用综合分析能力,将分散的信息整合为一份完整、准确的最终报告。
子智能体则如同演奏家,是并行的工作单元。它们接收主智能体下达的指令后,充分发挥自身专业能力,独立地执行搜索、评估信息等任务。例如,在进行市场调研相关的研究时,子智能体可能会通过网络搜索、数据分析工具等,收集并分析市场数据、竞争对手信息等,并将关键发现及时反馈给主智能体。
为了应对超过模型上下文窗口(如 200K tokens)的超长任务,系统引入了外部记忆机制。这一机制就像一个庞大的知识库,能够持久化存储研究计划、重要数据等关键信息,有效防止上下文丢失,确保智能体在处理复杂、长期任务时,能够随时调用之前存储的信息,保持工作的连贯性和准确性。
在生成最终报告后,一个专门的引用智能体随即登场。它的职责是对报告中的所有声明进行仔细检查,并将其与原始信源进行精准匹配,确保报告中的每一条信息都有可靠的依据,如同严谨的学术研究者为论文中的每一个观点标注准确的参考文献,从而保证了研究结果的可信度和权威性。
整个流程并非一成不变的线性过程,而是一个动态的、迭代的循环。主智能体如同经验丰富的指挥官,能够根据子智能体反馈的初步结果,灵活调整研究策略。如果发现某些方面的信息不够充分,主智能体可以迅速创建更多的子智能体进行深入或补充研究,直到收集到足够的信息,完成高质量的研究任务。
让一群智能体高效协作远比控制单个智能体复杂得多,Anthropic 在提示工程和系统评估方面积累了丰富且实用的经验,并总结出了八大原则和三大原则。
在提示工程方面,首先要像智能体一样思考。工程师需要深入模拟系统运行过程,细致观察智能体的行为,深入理解其 “心智模型”。通过这种方式,能够敏锐地发现智能体在执行任务过程中可能出现的失败模式,如过度搜索导致资源浪费、选择错误工具影响任务进度等,并针对性地进行优化。例如,当发现智能体在某个特定类型的任务中频繁选择不恰当的搜索工具时,工程师可以通过调整提示内容,引导智能体选择更合适的工具,从而提高任务执行效率。
教会 “指挥家” 如何授权至关重要。给子智能体的指令必须清晰、具体,明确包含任务目标、输出格式、工具使用建议以及任务边界等关键信息。模糊不清的指令极易导致子智能体工作混乱,出现重复工作或任务失败的情况。例如,在一个数据分析任务中,如果主智能体只是简单地要求子智能体 “分析市场数据”,子智能体可能会因不清楚具体的分析方向、数据格式要求等,而无法准确完成任务。但如果指令明确为 “对过去一年的市场销售数据进行月度趋势分析,以柱状图和折线图的形式呈现结果,并标注出销售额波动较大的月份及原因”,子智能体就能更高效地开展工作。
根据任务复杂度调整投入也是关键原则之一。在提示中巧妙嵌入规则,指导主智能体依据任务的复杂程度,如简单事实查询、对比分析、复杂研究等,合理决定启动的子智能体数量和工具调用次数。这样可以避免在简单任务上投入过多资源,造成浪费;同时确保在复杂任务中提供足够的资源支持,保证任务顺利完成。比如,对于一个简单的事实查询任务,如 “查询某城市的人口数量”,主智能体只需启动少量子智能体,调用基本的信息检索工具即可;而对于一个复杂的市场竞争态势分析任务,主智能体则需要启动多个不同类型的子智能体,调用市场调研数据库、数据分析软件等多种工具。
精心设计工具对于智能体的高效工作不可或缺。工具的接口和描述必须清晰、准确,为智能体提供明确的启发式规则,如优先使用专用工具、先进行广泛搜索再深入挖掘等,确保它们在面对众多工具时能够做出正确选择。例如,在进行学术研究时,为智能体提供专门的学术文献检索工具,并明确告知其在检索时应先通过关键词进行宽泛搜索,筛选出相关文献后,再根据文献摘要和引用情况进行深入筛选,这样能大大提高智能体获取有效信息的效率。
让智能体自我改进是 Anthropic 在实践中探索出的一项创新性原则。Claude 4 模型本身具备强大的学习能力,Anthropic 充分利用这一优势,创建了一个 “工具测试智能体”。当该智能体发现某个工具描述存在问题,导致智能体在使用工具时出现错误或效率低下时,它能够自动进行自我诊断,并重新编写工具描述,以避免未来在类似情况下出错。这一举措显著提升了智能体的工作效率,使任务完成时间减少了 40%。例如,在一个图像识别任务中,如果智能体发现图像识别工具的描述中对于某些特殊图像格式的识别方法说明不够清晰,导致识别准确率较低,工具测试智能体就会根据实际情况重新编写该工具的描述,补充相关识别方法,从而提高后续图像识别任务的准确性和效率。
先拓宽,再深入的原则引导智能体模仿人类专家的研究方式。在面对复杂问题时,智能体首先使用宽泛的查询探索问题的全貌,全面评估可用信息,了解问题的大致范围和相关领域。然后,根据初步探索的结果,逐步缩小焦点,深入研究关键问题。例如,在进行一项关于新能源汽车发展趋势的研究时,智能体先通过广泛搜索,了解全球新能源汽车市场的整体规模、主要生产企业、技术发展现状等宏观信息,然后再针对电池技术创新、政策法规影响等关键方面进行深入分析。
引导思考过程原则充分利用模型的 “思考” 能力。主智能体在制定研究策略、评估子智能体工作成果以及分配任务时,通过 “思考” 来梳理思路、做出合理决策。子智能体在每次工具调用后也进行 “思考”,评估结果质量,判断是否达到预期目标,并据此规划下一步行动。这种 “思考” 过程就像人类在解决问题时的自我反思和规划,有助于智能体更高效地完成任务。例如,在一个项目策划任务中,主智能体在制定项目计划时,会 “思考” 各个任务之间的逻辑关系、资源分配合理性等问题;子智能体在完成市场调研任务后,会 “思考” 调研数据的准确性、完整性,以及是否能够满足项目策划的需求,从而决定是否需要进一步补充调研。
并行化提升速度与性能原则在 Anthropic 的多智能体系统中得到了充分体现。系统实现了两个层面的并行化:主智能体能够并行启动多个子智能体,让它们同时开展不同方面的工作;每个子智能体又可以并行调用多个工具,加快信息获取和处理速度。这种高度并行化的设计使得复杂研究的耗时从数小时大幅缩短到几分钟。例如,在进行一个大型数据分析项目时,主智能体可以同时启动多个子智能体,分别负责不同数据维度的分析;每个子智能体在分析过程中,又可以并行调用数据清洗工具、统计分析工具、数据可视化工具等,极大地提高了数据分析的效率。
在有效评估方面,Anthropic 同样总结出了实用的原则。在开发早期,一个小的、有代表性的测试集(约 20 个查询)就足以帮助开发者发现重大问题并验证改进效果。开发者无需等到构建完美的大型评估集才开始测试,这样可以大大加快开发迭代速度,及时发现并解决问题。例如,在开发一个新的智能体功能时,通过对这 20 个具有代表性的查询进行测试,可能就会发现智能体在某些特定类型问题上的回答准确率较低,开发者可以据此快速调整算法或提示内容,然后再次进行测试,不断优化功能。
利用 LLM 作为 “裁判” 为评估自由格式文本输出提供了高效解决方案。对于那些难以通过程序化方式进行评估的文本内容,如智能体生成的报告、分析文章等,LLM 可以根据一套预先设定的标准,如事实准确性、引用准确性、完整性、信源质量等,对输出进行打分。例如,在评估智能体生成的一份关于科技行业发展趋势的报告时,LLM 可以快速分析报告中的内容,判断其中的事实陈述是否准确,引用的资料是否可靠,报告内容是否完整涵盖了关键信息,以及信源的权威性如何等,并给出相应的分数,为开发者评估智能体的工作质量提供参考。
尽管自动化评估能够快速处理大量数据,但人工评估在评估过程中仍然不可或缺。人工测试员凭借其敏锐的洞察力和丰富的经验,能够发现自动化评估无法捕捉到的微妙问题,如早期版本的智能体在信息筛选过程中可能偏爱 SEO 优化的内容农场,而忽视学术 PDF 等高质量信息源,以及一些系统性故障。人工评估可以及时发现这些问题,并为进一步优化提供详细的反馈,确保智能体系统的性能和可靠性。例如,人工测试员在审查智能体生成的医学研究报告时,可能会发现智能体对于某些医学术语的理解存在偏差,或者在引用医学文献时出现错误,这些问题通过自动化评估可能难以发现,但人工评估能够及时指出,从而推动智能体系统不断完善。
将一个复杂的智能体系统投入生产环境,会面临一系列传统软件开发中不常见的挑战。智能体在运行过程中是长时运行且有状态的,这意味着任何一个小错误都可能在后续运行中被不断放大,最终导致整个任务失败。为应对这一问题,系统必须具备从故障点恢复(Resume)的能力,而不是在出现问题时从头开始。例如,在一个持续运行数天的大数据分析任务中,如果智能体在运行到第二天时因某个临时网络故障导致部分数据丢失,具备从故障点恢复能力的系统可以根据之前存储的任务状态和部分结果,重新获取丢失的数据,继续完成后续分析任务,而无需重新启动整个分析流程,大大提高了系统的稳定性和可靠性。
智能体的非确定性使得复现和调试问题异常困难。由于智能体在不同运行环境、不同输入条件下可能会产生不同的行为,当出现问题时,很难准确重现问题发生的场景,从而难以定位和解决问题。为解决这一难题,Anthropic 引入了高级别的生产追踪(Tracing)机制。该机制主要监控智能体的决策模式和交互结构,而非具体对话内容,从而在保护用户隐私的前提下,帮助开发者深入了解智能体的运行过程,定位问题根源。例如,当智能体在执行一项任务时出现错误决策,通过生产追踪机制,开发者可以查看智能体在做出该决策时的推理过程、与其他智能体或工具的交互情况,从而分析出导致错误决策的原因,如提示信息不准确、工具调用错误等,并进行针对性改进。
在部署协调方面,由于智能体是持续运行的,不能简单地采用停止旧版本、启动新版本的常规部署方式。Anthropic 采用了 “彩虹部署”(Rainbow Deployments)策略,即新旧版本的系统同时运行,流量逐步从旧版本迁移到新版本。在这个过程中,开发者可以密切观察新版本系统在实际运行中的性能表现,及时发现并解决可能出现的兼容性问题、性能瓶颈等,确保系统的平稳过渡,避免因新版本上线而对用户造成不良影响。例如,在更新智能体的某个核心算法版本时,通过彩虹部署,先将少量用户流量引入新版本系统,观察新版本在处理这些用户请求时的响应速度、准确率等指标,确认无误后,再逐步增加新版本系统的流量占比,直到完成全部迁移。
目前,Anthropic 的多智能体系统采用的同步执行模式虽然简化了协调过程,但也带来了性能瓶颈。在这种模式下,主智能体需要等待一批子智能体完成任务后才能继续下一步操作,这在一定程度上限制了系统的整体运行效率。为突破这一瓶颈,未来的发展方向是采用异步执行模式。虽然异步执行模式会增加系统设计和开发的复杂性,但一旦实现,将极大地提升系统性能。例如,在异步执行模式下,主智能体在启动子智能体后,无需等待子智能体完成任务,就可以继续处理其他事务,当子智能体完成任务后,会主动向主智能体报告结果,这种方式可以充分利用系统资源,提高系统的并发处理能力,进一步缩短复杂任务的处理时间。
构建一个生产级别的多智能体研究系统无疑是一项艰巨的工程挑战,从最初的原型设计到最终成为可靠的产品,每一步都充满了困难与挑战。
这不仅需要细致入微的工程设计,精心规划系统的架构、模块功能以及智能体之间的协作方式;还需要进行全面的测试,通过各种测试手段和测试数据,发现并解决系统中可能存在的问题;同时,精巧的提示与工具设计能够充分发挥智能体的潜力,提高系统的性能和效率;此外,跨团队的紧密合作也是不可或缺的,包括算法研发团队、工程实现团队、测试团队以及产品团队等,各团队之间需要密切沟通、协同工作,才能确保整个项目的顺利推进。
Anthropic 在这一领域的探索和实践,为人工智能领域的发展提供了宝贵的经验和借鉴,也为未来智能体系统的发展指明了方向。随着技术的不断进步和完善,多智能体系统有望在更多领域发挥重要作用,为人们解决复杂问题、推动科学研究和创新发展提供更强大的支持。