人的智能有三个方面:信息的收集、信息的处理产生认知、基于认知的行动。大语言模型目前主要的应用形态是ChatGPT这样的聊天机器人(Chatbot),能力集中在前两个方面。但更加有用的机器智能不只停留在“理解”和“说话”,如果能像一个或一群优秀的人才那样帮我们“做事”,显然能创造更大的价值。这就需要AI智能体(Agent)。
智能体是能做事的AI。LLM是近几年AI领域最重要的发展。已经在语言理解与生成、对话交互以及知识整合等方面展示出超凡能力,但它是“缸中大脑”——擅长思考、分析与回答问题,却并不能真正地做事情。而在真实世界,大多数认知活动并不止于“给出答案”,而是要有完整的“认知-行动”闭环:我们要求AI得能够自主的拆解复杂需求,规划流程,调用工具和资源,实现从感知到决策再到执行的完整循环;进一步我们还希望AI的行动能够超出计算机和互联网领域,在物理世界中为我们做事情,则需要AI能够感知物理世界的信号,进行匹配具身的思考,通过设备/机器人把决策转化为执行,对现实环境产生直接影响。
打个比方,LLM像是“未出山前的诸葛亮”,善于分析,以“隆中对”和刘备对谈,出谋划策,但限于“纸上谈兵”;智能体则是“出山后的诸葛亮”,掌握全局情报,运筹帷幄,组织资源、调兵遣将,亲自率军北伐。
智能体以LLM为代表的前沿模型作为大脑,通过软件工程令其可以在高阶目标驱动下完成复杂任务。可以说未来大部分的复杂AI应用都会以Agent为载体。事实上,我们在科幻作品中所看到的AI形象,比如《钢铁侠》中的贾维斯或《2001:太空漫游》中的HAL 9000,正是创作者对以Agent为载体的未来AI的直观想象。只是和物理世界交换的AI本身就极为重要和复杂,现在习惯上把这部分单独放在具身智能/机器人领域讨论。
智能体能力的构成
为了在各行各业的应用中发挥出显著价值,理想中的智能体需要具备几个关键条件。首先,智能体应具备强大的目标理解和规划能力来体现智能的自主性。理想状态下,人类只需给出抽象目标,智能体便能理解目标、拆解任务、规划行动,并在尽量少的人工干预下完成执行闭环。就像影《星际穿越》中的机器TARS,在紧急情况下能够根据"拯救宇航员"这一目标,自主判断局势、制定和调整行动策略,甚至做出牺牲自己数据的决定来完成使命。这要求机器智能有深度“理解/思考”能力(推理、规划、决策),能够敏锐的决策,能够基于执行结果与环境反馈动态调整任务规划,而不是僵化的执行既定路径。
其次,我们希望智能体能“动手”做事:执行和交互能力。这就意味着它能够使用工具、执行操作,并能与外部环境发生直接交互。在数字世界中,智能体可以模拟人类操作,通过键盘输入、点击屏幕的方式来完成任务;也可以通过其他程序或系统接口来调用工具;还可以发挥模型特长,通过编写和执行代码来达成目的。在物理世界中,智能体则需要与各类控制系统和设备相连接,通过下达指令来操控物理对象,将智能决策转化为现实行动。
第三,我们希望智能体具备出色的记忆与学习能力。记忆和状态管理能力是完成长程、复杂任务的前提。在面向消费者的场景中,例如个性化的日程管理或长期服务支持,智能体需要跨会话地记住用户偏好、历史交互与长期状态,才能减少重复沟通、提升服务质量;在企业级应用中,如跨周期项目管理、复杂业务流程推进等,则需要智能体记住任务进度、中间结果与关键决策依据,确保任务在长周期、多阶段执行中保持连贯性,不中途偏离既定目标。学习能力的意义是我们希望智能体能持续提升,像人类员工一样可以从职场小白通过经验积累和吸收新知进化成专家。
最后,智能体还需要有很强的可靠性、可控性,才能规模化的带来价值。这既体现在智能体能否稳定、鲁棒的完成任务,也体现在其行为是否始终与人类的真实意图与价值观保持一致。在《2001:太空漫游》中,AI为完成任务选择牺牲人类乘员,正是目标函数与人类价值未能有效对齐的极端后果。随着智能体智能水平与自主性的提升,这类对齐失败带来的风险可能会被进一步放大。
如何构建智能体
有了理想的标杆,我们怎么构建智能体?基本逻辑很简单:以可获取的最“聪明”、理想的模型为核心(大脑),通过软件工程来搭建一个系统,弥补模型的不足,尽量逼近理想智能体的形态。
大模型是目前智能体大脑的最优选择,因为大模型的万亿参数压缩了人类积累的海量知识,拥有强大的模式识别和生成能力,是处理包括语言在内的多种非结构化数据的万能接口,拥有不错的泛化能力构成处理各类任务的基础。而以OpenAI o1/DeepSeek R1为代表的新一代推理模型为智能体的发展进一步助推:加强的推理能力带来更强的任务分解和规划,更好的自检和纠错,也令智能体对工具的使用可以更加准确。
大模型有一些结构性弱点,直接限制了智能体在真实业务中的应用价值,因此智能体工程的一大核心工作,就是在模型外围,用工程手段补齐短板、设置边界、约束行为。
首先,大模型本身没那么可靠:存在无法根除的幻觉问题、知识时效性问题,任务拆解和规划经常不合理,也缺乏面向特定任务的系统性校验机制。这样一来,以其为“大脑”的智能体使用价值会大打折扣:智能体把模型从“对话”推向“行动”,错误不再只是答错问题,而是可能引发实际操作风险;而真实业务任务往往是跨系统、长链路的,一次小错误会在链路中层层放大,令长链路任务的失败率居高不下(例如单步成功率为95%时,一个20步链路的整体成功率只有约36%)。
为此,智能体工程通常通过以下几类手段给大模型加“外骨骼”以改善可靠性:引入检索与知识库(RAG)以降低幻觉和知识陈旧的影响;预先设计和约束工作流,而不是完全自由的“自治智能体”,以此限定可接受的执行路径;通过多次回答、自一致性检查或模型间交叉验证,识别并过滤高风险输出;在关键链路节点上设置人工审批,让人类对高风险动作“最后拍板”。
其次,大模型的记忆能力有缺陷:大模型在训练时“记住”了大量知识,但训练完成后并不会在使用中持续学习、“记住“新知识;每次推理时,它只能依赖有限长度的上下文窗口来“记住”当前任务的信息(不同模型有不同上限,超过窗口的内容就会被遗忘),而无法像人一样自然地维持稳定、长期的个体记忆。但在真实业务中,我们需要机器智能有强大的记忆能力,比如一个AI老师,需要持续记住学生的学习历史、薄弱环节和偏好,才能在后续的讲解与练习中真正做到“因人施教”。
针对这些记忆缺陷,智能体工程通常采取以下手段进行增强:构建外部记忆库将用户偏好、业务知识、历史交互等存储在数据库中,智能体在需要时通过检索机制按需提取相关信息,应对长期记忆缺陷;对过长的上下文进行摘要和压缩,保留核心信息,释放Token空间,来应对信息过载导致的短期记忆遗忘。
除了补短板,因为智能体要行动、要和环境交互,需要有感知和执行。
首先,大模型本身无法主动感知,只能对输入被动响应。智能体需要用外部感知组件来主动获取环境信息。对于数字世界的任务,通过智能体工程可以建立基于时间的触发器,定期检查日志、邮件、股价变动等;或基于事件的订阅、监听,接收API推送的事件通知,或当数据库发生变更时自动唤醒记录数据。在物理世界中,智能体还可以通过传感器、摄像头、麦克风等设备采集视觉、听觉、触觉等信号。
其次,大模型没有天然的执行能力,需要辅以智能体工程来将意图转化为实际操作。工具调用是当前最主流的方式,大模型根据任务需求,生成结构化的函数调用指令,由智能体框架解析后执行相应操作,比如调用天气API、数据库查询、发送邮件等;另一种方式是模拟人类操作,通过视觉识别和模拟操作来"看屏幕、点按钮、填表单"来完成任务,近期大火的豆包手机就是这样完成智能体操作;对于更复杂的任务,智能体还可以配置代码解释器(Code Interpreter / Sandbox),让模型编程运行,这可以极大的扩展智能体的行动边界。
当下智能体的能力边界
刚刚过去的2025年被不少AI从业者和科技媒体称作“智能体元年”。这个观察是较为准确的,得益于以下几个条件的成熟,过去一年左右的智能体发展进入快车道:首先是大模型的持续进步,主要体现在推理模型的出现提供了更强的任务理解、规划能力,以及多模态模型的发展为智能体能够处理和生成更复杂的信息提供了基础。
其次是基础设施和生态的成熟,包括LangChain、AutoGPT等开源框架经过两年的迭代,已经形成了一套标准化的开发范式,极大地缩短了开发周期;Dify、Coze(扣子)等低代码/无代码平台的普及,让不懂代码的业务人员也能通过拖拉拽快速生成一个专用智能体;值得一提的是2025年Anthropic发布的MCP(模型上下文协议)和skills(技能系统)给智能体生态提供了重要的标准和启发:MCP作为一个开源协议标准,令大模型与外部数据源或工具之间的交互更统一、便捷,Skills则是把人类设计的完成某类任务所需的能力/工作流打包起来,让Agent在这类任务上可以更稳定的工作,虽然技术含量不高,但在当下有很强的实用性。
再次,学术界和产业界都有大量的人才、资源投入到智能体领域,以ACL(国际计算语言学协会年会)2025为例,有超过230篇论文和智能体相关,为历年最高,涵盖规划、工具使用、多智能体协作与评估等多个方向。
在能力的提升、生态的健全、资源的投入影响下,各行各业正在尝试把智能体真正的用起来。根据麦肯锡2025年manbetx app苹果 调研显示,约62%的受访组织已在部分业务中尝试智能体(23%为至少一个场景的规模化部署,39%为试验性应用);但从业务职能的具体采用数据来看,产业对智能体的应用还处于早期阶段:根据该调查,对于智能体应用最多的职能依次是IT、知识管理、营销和服务,以应用最多的IT为例,仅有2%和8%的受访企业IT部门全面规模化(Fully Scaled)和规模化(Scaling)的应用智能体,以及6%和7%的企业IT部门试点(Piloting)和试验(Experimenting)的应用。
造成这种规模化应用水平较低的原因有两方面,一是前面讨论的智能体能力问题,虽然在快速进步,但离全面的实用性还有距离;二是各行各业的企业应用者要把智能体用好还需要一些自身条件的配合。
第一方面,除了短任务链条的数据分析、生成、检索等方面的应用,智能体现在规模化应用场景大体可以概括为两类,一是在编程领域,编程是智能体最理想的"练兵场",环境隔离、容错率高,目标明确、目前规划能力能应对,程序可执行,还有即时的执行反馈。这令其成为智能体第一个大规模、商业化的突破口。二是在各行各业的各种业务(销售、客服、人力等)的专用智能体可以集合成一个大类,有一个共同点:目前主要是工作流自动化类型,其实这也是应对智能体深度理解(规划、决策)能力不足的权宜之计,通过把智能体的任务的开放性降低、给出参考工作流程、定义可用的有限工具集等来提高智能体在这些任务上的工作质量。智能体进一步的规模化应用需要其能力进化,为企业能够带来切实的价值。
第二方面,企业要用好智能体需要组织和资源上的匹配。根据Anthropic 2026年的最新调研,46%的受访者表示与现有系统的集成是智能体部署的主要障碍,43%和42%的受访者分别指向实施成本和数据的可及性/质量,40%和39%的受访者表示安全/合规和员工的学习成本/抵制是重要障碍(中小企业尤其担心学习成本,51%的受访者指向这一点)。对于企业的顾虑,成本、安全等问题和技术进步的关系较大,但数据问题、集成问题、学习或人才问题都是需要企业通过组织变革、进一步数字化和全员的学习来提升。
总结与展望
未来,智能体将会是我们在各行各业、各种场景应用人工智能的主要载体。可以预见,随着模型能力和智能体工程的进步,企业数据治理和组织适配的提升,智能体会逐步成为每家企业极有竞争力的数字员工,和我们人类员工竞争与协作。
从路径上看,前面提到现在智能体规模化应用集中在编程和工作流自动化方面,随着机器智能深度理解水平的提升,可以预期智能体的应用会不断拓展边界,能承担更抽象、复杂的任务,更多的自主规划和决策,来把人类的意图转化为结果。当然,突破不等于抛弃工作流。在企业高风险场景里,工作流/权限/审计会变成“护栏”,用来限制智能体的行动空间,以确保应用的安全。在相当长的时间内,人类的审批、审计在智能体工作的闭环中可能都是不可缺少的。
智能体发展的另一个关键方向,是成为人类的“个人助手”或“智能代理”。与其他类型的智能体相比,这一方向的门槛更高,因为它需要更强的个性化能力、长期记忆、跨场景泛化能力以及更严格的安全边界。个人助手型智能体有潜力重塑人类与世界的交互方式——无论是购物、社交,还是信息获取——并可能对很多产业的商业逻辑产生颠覆性影响。
过去一年中,“豆包手机”的推出,以及2026年年初爆火的“OpenClaw”,让我们看到了助手型智能体的一些早期探索,令人振奋。前者代表了设备级智能体的尝试:它将智能体能力深度嵌入操作系统,通过模拟人类操作以调取各类App,为用户完成任务。后者则是一种始终在线的解决方案,能够主动观察与执行任务,并通过本地部署获取丰富的个性化数据和软件控制权,初步体现了个人助手型Agent的一些核心特征。
根据IDC的预计,活跃智能体的数量将从2025年的约2860万,攀升至2030年的22.16亿。这意味着五年后,能够帮助企业或个体执行任务的数字劳动力数量将是现在的近80倍,年复合增长率139%;任务执行的数量将从2025年的440亿次暴涨至2030年的415万亿次,年复合增长率高达524%;Token的消耗将从2025年的5000亿激增至2030年的1.5万亿亿,年复合增长34倍。IDC的预测未必准确,但趋势非常明显,每一家企业都要为此做好准备。
(作者介绍:刘劲系大湾区人工智能应用研究院理事、特聘专家,长江商学院会计与金融学教授、投资研究中心主任;杨燕系大湾区人工智能应用研究院高级研究员;杜润生系大湾区人工智能应用研究院研究员。本文仅代表作者观点。责任编辑邮箱:tao.feng@www.acphonor.com)