category
在过去的一年里,我们与数十个团队合作,在各个行业构建了大型语言模型(LLM)智能体。一直以来,最成功的实现并没有使用复杂的框架或专门的库。相反,他们用简单、可组合的模式进行构建。
在这篇文章中,我们分享了我们从与客户和构建智能体合作中学到的东西,并为开发人员提供了构建有效智能体的实用建议。
什么是智能体?
“Agent”可以通过多种方式定义。一些客户将智能体定义为在长时间内独立运行的完全自主的系统,使用各种工具来完成复杂的任务。其他人则使用该术语来描述遵循预定义工作流的更规范的实现。在Anthropic,我们将所有这些变体归类为智能体系统,但在工作流和智能体之间进行了重要的架构区分:
- 工作流是通过预定义的代码路径编排LLM和工具的系统。
- 另一方面,智能体是LLM动态指导自己的流程和工具使用的系统,保持对它们如何完成任务的控制。
下面,我们将详细探讨这两种类型的智能体系统。在附录1(“实践中的智能体”)中,我们描述了客户发现使用这些系统具有特殊价值的两个领域。
何时(以及何时不)使用智能体
当使用LLM构建应用程序时,我们建议找到最简单的解决方案,并且只在需要时增加复杂性。这可能意味着根本不构建智能体系统。智能体系统经常以延迟和成本换取更好的任务性能,您应该考虑这种权衡何时有意义。
当需要更高的复杂性时,工作流为定义明确的任务提供了可预测性和一致性,而当需要大规模的灵活性和模型驱动决策时,智能体是更好的选择。然而,对于许多应用程序来说,使用检索和上下文示例优化单个LLM调用通常就足够了。
何时以及如何使用框架
有许多框架使智能体系统更容易实现,包括:
- LangChain的LangGraph;
- Amazon Bedrock的人工智能智能体框架;
- Rivet,一个拖放式GUI LLM工作流构建器;和
- Vellum,另一个用于构建和测试复杂工作流的GUI工具。
这些框架通过简化标准的低级任务,如调用LLM、定义和解析工具以及将调用链接在一起,使入门变得容易。然而,它们通常会创建额外的抽象层,从而掩盖底层的提示和响应,使其更难调试。当一个更简单的设置就足够了时,它们也可能使增加复杂性变得诱人。
我们建议开发人员从直接使用LLM API开始:许多模式可以在几行代码中实现。如果你确实使用框架,请确保你理解底层代码。对幕后工作的错误假设是客户错误的常见来源。
请参阅我们的烹饪书,了解一些示例实现。
构建块、工作流和智能体
在本节中,我们将探讨我们在生产中看到的智能体系统的常见模式。我们将从我们的基础构建块开始——增强的LLM——并逐步增加复杂性,从简单的组合工作流程到自主智能体。
构建模块:增强型LLM
智能体系统的基本构建块是通过检索、工具和内存等增强功能增强的LLM。我们目前的模型可以积极使用这些功能——生成自己的搜索查询,选择合适的工具,并确定要保留哪些信息。
我们建议关注实现的两个关键方面:根据您的特定用例定制这些功能,并确保它们为您的LLM提供一个简单、有据可查的界面。虽然有很多方法可以实现这些增强,但一种方法是通过我们最近发布的模型上下文协议,该协议允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。
在本文的其余部分,我们将假设每个LLM调用都可以访问这些增强功能。
工作流程:提示链接
提示链接将任务分解为一系列步骤,其中每个LLM调用都处理前一个任务的输出。您可以在任何中间步骤上添加程序检查(见下图中的“门”),以确保流程仍在正轨上。
何时使用此工作流:此工作流非常适合任务可以轻松、干净地分解为固定子任务的情况。主要目标是通过使每个LLM调用都更容易完成,以牺牲延迟来获得更高的准确性。
提示链接有用的示例:
- 生成营销文案,然后将其翻译成另一种语言。
- 编写文档大纲,检查大纲是否符合某些标准,然后根据大纲编写文档。
工作流程:路由
路由对输入进行分类,并将其引导到专门的后续任务。此工作流允许分离关注点,并构建更专业的提示。如果没有这个工作流程,对一种输入进行优化可能会损害其他输入的性能。
何时使用此工作流:路由适用于复杂的任务,在这些任务中,有不同的类别可以更好地单独处理,并且可以通过LLM或更传统的分类模型/算法准确地处理分类。
路由有用的示例:
- 将不同类型的客户服务查询(一般问题、退款请求、技术支持)引导到不同的下游流程、提示和工具中。
- 将简单/常见问题路由到较小的模型,如Claude 3.5 Haiku,将困难/异常问题路由到更强大的模型,例如Claude 3.5 Sonnet,以优化成本和速度。
工作流程:并行化
LLM有时可以同时处理一个任务,并以编程方式聚合其输出。这种工作流程,即并行化,体现在两个关键变化中:
- 分段:将任务分解为并行运行的独立子任务。
- 投票:多次运行同一任务以获得不同的输出。
何时使用此工作流:当划分的子任务可以并行化以提高速度时,或者当需要多个视角或尝试以获得更高置信度的结果时,并行化是有效的。对于具有多个考虑因素的复杂任务,当每个考虑因素都由单独的LLM调用处理时,LLM通常会表现更好,从而可以将注意力集中在每个特定方面。
并行化有用的示例:
分段:
- 实现护栏,其中一个模型实例处理用户查询,而另一个则筛选不适当的内容或请求。这往往比让相同的LLM调用处理护栏和核心响应表现更好。
- 自动评估LLM性能,其中每个LLM调用在给定提示下评估模型性能的不同方面。
投票:
- 检查一段代码是否存在漏洞,如果发现问题,会有几个不同的提示检查并标记代码。
- 评估给定内容是否不合适,有多个提示评估不同方面,或要求不同的投票阈值来平衡误报和漏报。
工作流程:编排人员
在编排器工作流程中,中央LLM动态分解任务,将其委托给工作LLM,并综合其结果。
何时使用此工作流:此工作流非常适合无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量和每个文件中更改的性质可能取决于任务)。虽然它的拓扑结构相似,但与并行化的关键区别在于它的灵活性——子任务不是预先定义的,而是由编排器根据特定输入确定的。
编排工人有用的示例:
- 每次对多个文件进行复杂更改的编码产品。
- 搜索任务涉及从多个来源收集和分析信息,以寻找可能的相关信息。
工作流程:评估器优化器
在评估器优化器工作流中,一个LLM调用生成响应,而另一个则在循环中提供评估和反馈。
何时使用此工作流:当我们有明确的评估标准,并且迭代细化提供可衡量的价值时,此工作流特别有效。良好匹配的两个迹象是,第一,当人类表达他们的反馈时,LLM的反应可以明显改善;第二,LLM可以提供这样的反馈。这类似于人类作家在制作精美文档时可能经历的迭代写作过程。
评估器优化器有用的示例:
- 文学翻译,译者LLM最初可能无法捕捉到细微差别,但评估者LLM可以提供有用的批评。
- 需要多轮搜索和分析以收集全面信息的复杂搜索任务,评估人员决定是否需要进一步搜索。
智能体
随着LLM在关键能力方面的成熟,智能体正在生产中出现——理解复杂的输入、参与推理和规划、可靠地使用工具以及从错误中恢复。智能体从人类用户的命令或与人类用户的交互式讨论开始工作。一旦任务明确,智能体就会独立计划和操作,并可能返回给人类以获取更多信息或判断。在执行过程中,智能体在每个步骤(如工具调用结果或代码执行)从环境中获取“基本事实”以评估其进度至关重要。然后,智能体可以在检查点或遇到阻断器时暂停以获取人工反馈。任务通常在完成后终止,但通常也会包括停止条件(如最大迭代次数)以保持控制。
智能体可以处理复杂的任务,但它们的实现通常很简单。它们通常只是LLM,使用基于循环中环境反馈的工具。因此,清晰周到地设计工具集及其文档至关重要。我们在附录2中详细介绍了工具开发的最佳实践(“快速设计您的工具”)。
何时使用智能体:智能体可用于难以或不可能预测所需步骤数的开放式问题,以及无法硬编码固定路径的问题。LLM可能会进行多次轮换,您必须对其决策有一定程度的信任。智能体的自主性使其成为在可信环境中扩展任务的理想选择。
智能体的自主性意味着更高的成本,以及复合错误的可能性。我们建议在沙盒环境中进行广泛的测试,并设置适当的防护栏。
智能体有用的示例:
以下示例来自我们自己的实现:
- 一个编码智能体,用于解决SWE工作台任务,该任务涉及根据任务描述对许多文件进行编辑;
- 我们的“计算机使用”参考实现,Claude使用计算机完成任务。
组合和定制这些模式
这些构建块不是规定性的。它们是开发人员可以塑造和组合以适应不同用例的常见模式。与任何LLM功能一样,成功的关键是衡量性能和迭代实现。重复一遍:只有当复杂性明显改善了结果时,你才应该考虑增加复杂性。
摘要
LLM领域的成功不是建立最复杂的系统。这是关于为您的需求建立正确的系统。从简单的提示开始,通过综合评估对其进行优化,只有在更简单的解决方案不足时才添加多步骤智能体系统。
在实施智能体时,我们试图遵循三个核心原则:
- 保持智能体设计的简洁性。
- 通过明确显示智能体的计划步骤来优先考虑透明度。
- 通过全面的工具文档和测试,精心制作您的智能体计算机界面(ACI)。
框架可以帮助您快速入门,但在进入生产环境时,不要犹豫,减少抽象层并使用基本组件进行构建。通过遵循这些原则,您可以创建不仅功能强大,而且可靠、可维护且受用户信任的智能体。
致谢
由埃里克·施伦茨和张撰写。这项工作借鉴了我们在Anthropic建立智能体商的经验以及客户分享的宝贵见解,对此我们深表感谢。
附录1:实践中的智能体
我们与客户的合作揭示了人工智能智能体的两个特别有前景的应用,证明了上述模式的实用价值。这两个应用程序都说明了智能体如何为需要对话和行动的任务增加最大价值,具有明确的成功标准,启用反馈循环,并集成有意义的人工监督。
A.客户支持
客户支持将熟悉的聊天机器人界面与通过工具集成增强的功能相结合。这非常适合更开放的智能体,因为:
- 支持交互自然遵循对话流程,同时需要访问外部信息和操作;
- 可以集成工具来提取客户数据、订单历史和知识库文章;
- 可以通过编程处理退款或更新票证等操作;和
- 通过用户定义的分辨率可以清楚地衡量成功。
几家公司已经通过基于使用的定价模型证明了这种方法的可行性,该模型仅对成功的解决方案收费,表明了他们对智能体有效性的信心。
B.编码智能体
软件开发领域已经显示出LLM功能的巨大潜力,其功能从代码完成到自主解决问题。智能体特别有效,因为:
- 代码解决方案可以通过自动化测试进行验证;
- 智能体可以使用测试结果作为反馈来迭代解决方案;
- 问题空间定义明确且结构化;和
- 输出质量可以客观地衡量。
在我们自己的实现中,智能体现在可以仅根据拉取请求描述在SWE bench Verified基准中解决真正的GitHub问题。然而,尽管自动化测试有助于验证功能,但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。
附录2:及时设计您的工具
无论你正在构建哪个智能体系统,工具都可能是智能体的重要组成部分。通过在我们的API中指定外部服务和API的确切结构和定义,Claude可以通过这些工具与它们进行交互。当Claude响应时,如果它计划调用一个工具,它将在API响应中包含一个工具使用块。工具定义和规格应与整体提示一样得到及时的工程关注。在这个简短的附录中,我们描述了如何提示设计您的工具。
通常有几种方法可以指定相同的操作。例如,您可以通过编写diff或重写整个文件来指定文件编辑。对于结构化输出,您可以在markdown或JSON中返回代码。在软件工程中,这样的差异是装饰性的,可以无损地从一个差异转换到另一个差异。然而,LLM编写某些格式比其他格式困难得多。编写diff需要在编写新代码之前知道块头中有多少行发生了变化。在JSON中编写代码(与markdown相比)需要额外转义换行符和引号。
我们对决定工具格式的建议如下:
- 在模型将自己写进角落之前,给它足够的令牌来“思考”。
- 保持格式接近模型在互联网上自然出现的文本。
- 确保没有格式化“开销”,例如必须准确计数数千行代码,或者对它编写的任何代码进行字符串转义。
一个经验法则是考虑在人机界面(HCI)上投入了多少精力,并计划在创建良好的智能体计算机界面(ACI)上投入同样多的精力。以下是一些关于如何做到这一点的想法:
- 把自己放在模特的鞋子里。根据描述和参数,如何使用这个工具是显而易见的,还是你需要仔细考虑?如果是这样,那么对于模型来说可能也是如此。一个好的工具定义通常包括示例用法、边缘情况、输入格式要求以及与其他工具的明确界限。
- 如何更改参数名称或描述以使事情更加明显?把这看作是为团队中的初级开发人员编写一个很棒的文档字符串。当使用许多类似的工具时,这一点尤为重要。
- 测试模型如何使用您的工具:在我们的工作台中运行许多示例输入,看看模型会犯什么错误,然后迭代。
- Poka轭你的工具。改变论点,这样就更难犯错。
在为SWE bench构建智能体时,我们实际上花了比整体提示更多的时间来优化我们的工具。例如,我们发现,在智能体移出根目录后,使用相对文件路径的工具会出现错误。为了解决这个问题,我们将工具更改为始终需要绝对文件路径——我们发现模型完美地使用了这种方法。
- 登录 发表评论