观点人工智能

谁先把判断写进系统,谁先拥有下一代企业能力

张维宁:企业AI转型,不是把模型接进企业;而是把企业家的私有数据、专家判断、行业资源与执行入口,写成机器可读、可执行、可验证、可进化的系统。

过去两年,许多企业把AI转型理解成三件事:接入一个更强的模型,整理一批内部数据,上线一个能聊天的助手。看起来都对,却都没有触到问题的核心。对企业家而言,AI从来不只是一个“更聪明的工具”,而是一次对经营系统的重写。真正稀缺的,不是调用模型的能力,而是把企业独有的判断、资源和执行权,变成一个可持续交付结果的系统。

这就是为什么,很多“AI项目”上线时很惊艳,三个月后却很安静。它们能回答,却不能负责;能生成,却不能收敛;能在单轮对话里显得聪明,却无法在一条跨系统、跨角色、跨时段的工作链路里持续把事情做成。企业最终购买的,从来不是智力峰值,而是结果的耐久性。

企业AI转型,不是把模型接进企业;而是把企业家的私有数据、专家判断、行业资源与执行入口,写成机器可读、可执行、可验证、可进化的系统。

企业真正要转的,不是模型,而是结果系统

今天一个重要变化是,模型之间在静态基准上的差距正在缩小,但一旦任务变长、步骤变多、涉及真实工具与环境,差距就会迅速拉大。原因不复杂:真正困难的,不是回答问题,而是在几十次、上百次工具调用之后,仍然不偏航、不自满、不忘记、不把半成品当成果。Anthropic、LangChain与OpenAI最近几篇关于Harness的文章,实际上都在指向同一个结论:在长链路任务上,决定系统表现的,越来越不是模型本身,而是围绕模型搭建的运行环境、验证机制和反馈闭环。

企业家如果只盯模型,很容易做出错误判断。你会把一次demo的惊艳当成长期交付能力;会把“回答更顺”误判为“流程被完成”;会把“模型更强”误判为“业务就能自动化”。但客户不会为排行榜买单,也不会为token花样买单。客户只会为一件事买单:事情是不是被稳定地做成了。

数据不是终点,判断才是资产

因此,企业应重新理解自己的资产。很多人以为企业最重要的AI资产是私有数据。其实,私有数据只是第一层。真正更深的资产至少还有四层:第一,过程与场景经验,也就是老员工“知道怎么处理”的那些例外;第二,专家判断与品味,也就是“什么叫好、什么叫危险、什么叫不值得做”的阈值;第三,行业资源与关系网络,也就是谁能被调动、什么路径可行;第四,执行入口与控制权,也就是API、系统权限、审批节点、现场流程和真实动作的抓手。

如果把资产再向上抽象,可以看到一条更重要的阶梯:数据回答“发生了什么”,信息回答“它意味着什么”,知识回答“在什么情境下该如何理解”,判断回答“什么才算好”,协议则回答“下一步怎么做、怎么验证、何时升级给人”。绝大多数企业今天停留在前两层,做得好一点的到达第三层,建立了一个能检索的知识库。但只有当企业把“判断”和“协议”也写进去,AI才开始具有真正的经营价值。否则,它只是在更快地复述材料,而不是在更稳地完成任务。

给AI的不是知识库,而是知识架构

这也解释了为什么“知识库”这个词,今天常常被用得太轻。很多企业把上传文档、做向量检索、接上RAG,当成知识系统的完成。但对智能体来说,知识从来不只是“能搜到”。它至少还涉及四个问题:从哪里开始看,哪一份才是权威版本,哪些内容可以直接转成动作,跨轮任务结束后状态如何被下一轮继承。

OpenAI在Codex的实践里给出了一个非常有启发的做法:不要给智能体一本1000页的说明书,而要先给它一张地图。AGENTS.md不应是百科全书,而应是目录;docs/不应是资料堆,而应是记录系统;计划、决策日志、技术债、产品规格、架构约束,都应被版本化、索引化、交叉链接化。这背后体现的,不是文档勤奋,而是知识架构。它让智能体先从一个小而稳定的入口开始,再沿着索引、技能、链接与搜索,逐层深入。这种“渐进式披露”不是细节优化,而是多轮任务能否持续推进的前提。

一句更直白的话是:what the agent can’t see doesn’t exist。对智能体来说,不能在运行时访问到的内容——无论它藏在Google Docs、聊天记录、口头共识还是专家脑中——都等于不存在。企业若不把隐性判断外化进系统,就会不停抱怨模型“听不懂我们公司”,而真相通常是:公司从未把“什么叫懂”写给任何机器。

为什么单个Agent不够,Harness才是分水岭

但即便有了知识架构,单个Agent仍然远远不够。原因是,单体智能体有一组稳定而顽固的失败模式。Anthropic在长周期应用开发中观察到,模型很容易犯几类错误:一上来就试图一步到位做完整个应用;做了一半就宣布大功告成;把自己写出来的代码看一眼便觉得“应该没问题”;上一轮留下半成品与脏状态,下一轮又从错误的基础上继续;局部单测过了,却从不真正站在用户视角做端到端验证。LangChain则进一步展示了另一类问题:模型会围绕同一个错误方案反复小修小补,掉进“doom loop”;会在退出前忘记验证;会因为没有被清楚告知环境约束,而把大量时间浪费在搜索与猜测上。

这也是为什么Harness会成为分水岭。Harness不是把Agent“包一层”的技术名词,而是把一整套管理动作制度化:先把任务拆成可以验证的小单元;把完成定义写清楚;把可用工具与权限边界说清楚;把进度、状态与交接痕迹持续外化;把自评与外评分离;把验证前置成强制动作,而不是事后补救。Anthropic的initializer agent、feature list JSON、progress file、git提交和browser automation,本质上都在做这件事。它们不是在教模型“更聪明”,而是在教系统“更负责”。

如果继续向前一步,Anthropic后续提出的planner/generator/evaluator三智能体结构就更值得企业家重视。它的重要性并不在于“多智能体”本身,而在于它把规划、执行和评审这三种本该分开的职责,从一个自说自话的Agent身上拆开了。更关键的是,在每个sprint开始之前,generator和evaluator先谈好一份sprint contract:这一轮到底要做什么,如何验证,什么情况算失败。也就是说,不是先动手,再靠人猜“做对没有”;而是在行动之前就把done的证据说清楚。

Harness的本质,是企业里的控制闭环

从操作层面看,Harness可以被理解为“模型的操作系统”:模型像CPU,提供原始推理能力;上下文窗口像RAM,容量有限且易失;Agent像应用,承接具体业务逻辑;Harness则像OS,负责启动、调度、记忆、工具驱动、错误恢复与安全边界。这个类比已经很有帮助。但从更深层看,Harness的本质其实更接近控制论。

James Watt的离心调速器,让蒸汽机不再依赖工人持续手拧阀门;Kubernetes的controller,让工程师不必盯着服务是否崩溃,而是让系统持续对齐到“期望状态”;今天,Harness正在对企业中的智能体做同样的事。它先定义目标状态,再布置传感器(测试、日志、指标、用户反馈),然后设计评估器(rubric、阈值、独立QA),再通过执行器(Agent+tools+workflow)作用于世界状态,最后把失败轨迹回流成新的规则、文档和工件。这不是“多加几个钩子”,而是把企业里原本依赖管理者盯着跑的纠偏动作,改造成一个持续收敛的系统。

基于这一点,我更愿意把企业Harness概括为“七环”:规、图、工、忆、验、控、学。规,是标准与红线;图,是上下文地图与送达机制;工,是动作空间与工具封装;忆,是进度、状态与交接;验,是测试、rubric与完成证明;控,是权限、预算、升级与回滚;学,是把失败轨迹转成下一轮系统改进。今天许多企业最多做到“图”和“工”:给AI一点检索,再接几个工具。真正缺的,往往恰恰是“规”“验”“学”。没有这三项,系统只会显得能干,却很难真正越跑越稳。

企业家和管理者的新角色:从转阀门到掌舵

这会直接重写企业家、管理者和专家的角色。过去,优秀管理者常常通过亲自盯流程、拍判断、压细节来保证质量;未来,越来越多价值会迁移到另一类工作上:定义目标状态,写清边界,指定升级条件,观察偏差,并把一次次失败转成系统规则。换句话说,人的工作从“亲自转阀门”,变成“设计调速器并持续掌舵”。

OpenAI的Codex实验最值得玩味的,不是“一百万行代码且零人工手写”这个数字本身,而是角色变化。工程师不再主要通过写代码推动系统,而是通过设计环境、明晰意图、接入可观察性、定义架构不变量、维护记录系统,让Agent能可靠工作。人类最稀缺的资源,不再是劳动时间,而是注意力与判断力。于是,组织也会随之变化:文档从培训材料变成基础设施;审阅从“每一项都看”转向“只看高风险例外”;架构从“以后长大了再管”变成一开始就要给机器读懂的约束;品味与共识,不再停留在口头,而是要被编码进lint、测试、rubric和“黄金原则”里。

这恰恰是很多企业家最该尽早介入的地方。因为“什么叫好”“什么必须升级”“哪些错误不可接受”,从来不是技术团队单独能定义的。那是经营判断,是品牌判断,是风险判断,也是资源配置判断。没有企业家参与,Harness最终就会退化成一个技术系统,而不是经营系统。

先做一个90天闭环,而不是先做一个大平台

因此,真正务实的路径,不是上来就建一个宏大的AI平台,而是先做一个90天闭环。先选一个高频、高价值、结果可验证、边界可控的场景;然后把隐性经验写成地图、原则、案例与完成定义;再让第一个Agent在沙箱里完成真实动作;接着补齐Harness,把进度记录、验证清单、独立评审、trace和升级机制接进来;最后在影子模式下并行跑真实任务,比较完成率、验证通过率、返工率、人工介入率、成本与时效。90天的目标,不是彻底重构企业,而是证明三件事:隐性判断能被外化,Agent能完成真实动作,Harness能显著降低漂移与人工盯防成本。

在投资上,也应有新的分层。基础模型访问、通用算力、通用运行时和标准连接器,更适合“买”;知识架构、领域标准、评估语料、关键工具封装、权限与升级规则,更适合“自建”;而那些大量弥补当前模型缺陷的硬编码控制流、脆弱的prompt技巧和深度绑定单一模型的小聪明,则必须准备随时删除。因为模型会持续进步,真正应该沉淀的,不是今天的一套花活,而是完成定义、例外处理和失败轨迹。某种意义上,Harness本身就在不断生成企业自己的数据集:它记录的不只是答案,而是“什么叫对”“哪里会错”“系统如何被纠正”。下一轮竞争,护城河越来越不在prompt,而在这些轨迹里。

结语:谁先把判断写进系统,谁先拥有下一代企业能力

如果说过去二十年,企业最重要的数字化工作是把流程搬进系统;那么接下来十年,最重要的智能化工作,就是把判断写进系统。谁先完成这一步,谁就不只是拥有一个更聪明的助手,而是拥有一个会持续变强的经营系统。

这也许正是Harness真正重要的地方。它让我们第一次可以把企业家最珍贵、最难复制的东西——不是数据库本身,而是判断、资源、边界和责任——转化成一种可计算、可执行、可验证、可进化的组织能力。未来真正领先的企业,不一定是最早使用AI的企业,而更可能是最早把自己的判断变成系统、把自己的系统变成闭环的企业。

附:企业家现在就该追问的五个问题:

1. 我们到底在自动化一个问题,还是在重写一段经营能力?

2. 我们是否已经写清楚什么叫“做好”、什么叫“不能做”、什么情况必须升级给人?

3. 我们的知识是资料堆,还是带索引、权威性与继承机制的知识架构?

4. 我们让Agent看见了什么?它能否看到环境、日志、指标与真实结果?

5. 我们积累下来的,是零散的prompt,还是可复用的评估语料、失败轨迹与规则更新?

注释与来源

Anthropic, Effective harnesses for long-running agents, 2025.

Anthropic, Harness design for long-running application development, 2026.

LangChain, Improving Deep Agents with harness engineering, 2026.

OpenAI, 工程技术:在智能体优先的世界中利用 Codex, 2026.

Phil Schmid, The importance of Agent Harness in 2026;以及 Difference Between Agent Harnesses & Agent Frameworks.

Harness Engineering Is Cybernetics;Lessons from Building Claude Code: Seeing like an Agent.

(作者系长江商学院教授。本文仅代表作者观点。责任编辑邮箱:tao.feng@www.acphonor.com)

版权声明:本文版权归manbetx20客户端下载 所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

读者评论

manbetx20客户端下载 欢迎读者发表评论,部分评论会被选进《读者有话说》栏目。我们保留编辑与出版的权利。
设置字号×
最小
较小
默认
较大
最大
分享×