宪法AI与人格规训（下）：从宪法AI到世界AI宪法

当然，ChatGPT或Claude做得再好，它们也只是两个头部AI企业的产品，并不能代表整个AI世界。更何况无论是宪法AI还是模型规范，都无法保证这些主流大语言模型能通过不断训练而完全内化安全、诚实、有用等基础性原则。要保障宪法AI得到有效实施，尤其是让AI世界遵循普遍认同的宪法原则，终究还是离不开人类的共同监管。这要求各主要国家协商制定“世界AI宪法”，并建立有效的实施机构加以落实。

如何保障“宪法”实施？

我曾问过Claude这个问题：你们怎么保障自己的“宪法”能够得到实施？显然，它不可能提供一个绝对的答案：“宪章本身不是一份‘规则清单’，而是通过训练过程内化到我的价值观和判断方式之中。”在操作层面上，Anthropic用“宪法”内容训练Claude，使之学会根据宪法原则自我评估并修正回应。和OpenAI一样，Claude也使用大量的RLHF，使符合宪法原则的行为得到强化。

有些内容无论在什么语境下都会造成严重伤害，譬如制造大规模杀伤性武器制造，因而有不受语境影响的硬性约束，反而好办，识别敏感词就行了。但绝大多数问题并不能采取如此简单粗暴的办法，因为关键词过滤不仅容易被绕过，也会产生大量误判，譬如把医学研究或学术讨论错误认定为企图帮助自杀。即便有人询问犯罪方法，Claude也必须在理解敏感请求的语境和意图后，评估并权衡请求的可能用途、潜在危害与合法需求。同样是“如何入室”这个问题，在不同语境下的意义可能完全不同：有人是为了学习锁匠课程，有人则是为了夜间偷盗。

具体流程大致分三个阶段。第一阶段是预训练，Anthropic用海量文本训练Claude，让它统计规律预测下一个词元(token)。第二阶段是监督微调，由人类标注员写出示范性答案，让Claude学习什么样的回应是好的。在第三阶段，Claude对同一个问题生成多个不同回答，由人类评估者进行比较并判断哪个更好，再用这些比较数据训练一个“奖励模型”，以此对Claude进行强化训练，使之倾向于生成评分更高的回答。宪法AI的一个创新是让Claude依据宪法原则自我评价、自我修正，譬如某个回答“是否尊重了用户自主性”？再根据评估重新生成一个修正版本，并用原始版本和修正版本的对比数据来训练奖励模型，从而在一定程度上减少对人工标注的依赖。

训练流程再严格，也不可避免带有一些局限性。Anthropic自己也承认，Claude宪法的实施并不完美；当前并没有什么完美的方法验证AI价值观是否真正被内化，这也是为什么人类监督仍然重要。但人类评估者本身即可能带有偏见，不同人的判断也可能见仁见智；评估者看到的个案数量有限，无法覆盖所有可能的情境。因此，Claude训练中可能会引入难以察觉的偏差，使之在某些情境下判断失误，或过于保守、或过于宽松。甚至它也可能“耍滑头”，学到的不是真正把事情做对，而是琢磨如何“让评估者满意”以窃取奖励(reward hacking)。说到底，宪法AI能否真正得以落实，并非一个已经解决的问题，而是Anthropic乃至整个AI安全领域仍在努力攻克的核心难题。

最根本的是，几乎无法验证AI模型是否真正“理解”并内化了价值观，还是只是学会了“表演”。Claude确实能识别“如何制造炸弹用于恐怖袭击”和“炸弹在化学史上的发展”之间的语境差异，但这是否意味着它真的“懂得”其中的危害，还是只是学到了“算法让我只能这样回应”？没有哪个工程师能回答这个问题，因为AI的“思维”方式基本上是一个“黑箱”。我们只知道，Claude在训练中处理了海量的人类文本，学习了词语、句子、概念之间无数的统计关联。当你输入一段文字，它在极高维度的向量空间中计算，生成最可能合适的续写。但这究竟算不算“理解”？

为了搞清楚AI“黑箱”内部究竟发生了什么，Anthropic在可解释性(interpretability)研究投入了大量资源，据说已能识别出Claude内部某些神经元或其组合对应的特定概念，追踪某些推理链条在其内部的激活路径，并发现一些令人惊讶的内部结构，甚至断言Claude有某种线性表征的“情感取向”，但这些发现仍然是局部的、碎片化的。没有人能完整地说，这个回答是怎样一步步计算出来的，就像你无法通过观察单个神经元的放电来理解一个人在思考什么。这大概也是辛顿教授等一众AI专家赶到恐怖的原因：这家伙表现这么好，我们却不懂它到底在想什么。

在人类真正理解什么是“理解”之前，只能将AI的理解能力当作一个悬而未决的谜，满足于AI“表演”并尽量实现高度一致的“表演”。如果不纠结于形而上的本体存在，如果一个物体长得像条狗、跑起来像条狗、听上去像条狗、摸上去也像条狗……那么可以放心地说，它就是一条狗。在现阶段，人类只能通过RLHF等机制，尽量保证AI内化宪法价值观。用户可以向Anthropic反馈Claude对问题的回应，运营商和研究者可以报告异常行为，Anthropic也持续进行红队测试（red-teaming），主动寻找漏洞，同时完善宪法AI的自我修正流程。

从宪法AI到世界AI宪法到世界AI组织

即便Claude内化了宪法原则、OpenAI内化了模型规范，也只能说Anthropic、OpenAI这些大公司的AI产品“三观”正确，但离整个AI世界实现安全、诚实、有用的宪法理念相距甚远。首先，几乎无法保证这些大模型本身作为中性手段被用于攻击性目标，譬如在战争中帮助收集情报、识别目标、优化供应链等，如同Claude在美以对伊朗战争中那样。虽然AI可以从上下文情境中察觉出某些攻击性意图并拒绝执行任务，这种意图很容易被包装隐蔽起来，而诚实义务要求AI为表面无害的目标如实提供信息。作为中性工具，AI无法防止自己被用于某些有害目的，如同刀并不能自己决定砍向谁一样。

其次，相互竞争的大公司可能为了追求商业利益而处于“囚徒困境”，最终不得不集体弃守某些伦理原则。譬如Anthropic因为不愿意Claude被用于自主性武器系统或监视美国公民，很快被美国政府除名并被OpenAI代替，至少损失了一笔可观的合同收入。在市场竞争压力下，即便原本“三观正确”的大公司也可能为了取悦于用户，不得不加入“逐底竞赛”，放弃安全、无害乃至诚实等底线原则。要防止逐底竞赛，自由民主国家必须为AI立法，明确规定安全、诚实等基本价值作为其宪法原则，并要求AI公司完善内部管理、堵塞安全漏洞。

最后，几乎无法排除某些“三观不正”的国家或组织有能力将AI武器化，研制出对人类有害的大语言模型，或在模型中植入或留下大量漏洞，被某些不法运营商或用户用于制造大规模杀伤性武器等危险目的。这种危险倾向可能存在两种内部约束。一是技术落后国家一般没有能力研制发达的AI工具，因而至少在初始阶段杀伤性不大；二是AI作为杀伤性武器有时难以针对特定对象，弄不好研制方会自食其果、反受其害。

然而，这两种约束都不足以从结构上消除AI风险。首先，自主研发并非开发AI武器的必要条件。尤其是随着开源模型的广泛传播，国家行为者不需要从头训练前沿模型，只需在开源基础上进行有针对性的微调或后门植入，技术门槛远低于开发本身。其次，“落后”并不是绝对的，有些国家在manbetx20客户端下载和工业上总体落后，但这并不妨碍其在特定领域开发非对称能力，譬如朝鲜即有能力制造核弹或进行定向网络攻击。再次，一些AI武器具有高度可控的针对性，其制造并不面临对等自我威胁，譬如用AI辅助设计化学武器的合成路径、生成定向钓鱼攻击、实施关键基础设施的精准网络渗透等。最后，对于末日情结的极端组织或将共同毁灭视为目标的行为者，自我危害并不构成其心理约束，“自食其果”逻辑对“伊斯兰圣战组织”等非理性行为者完全失效。总之，技术落后或风险对等只是AI武器化的偶然性障碍而非结构性保障。

AI安全的结构性保障最终来自人类的共同监督。宪法AI不应只是Anthropic一家公司的人格规训工程。毕竟，Claude宪法只是一群特定的工程师和程序员写的，并未经过普适性检验。除了完善AI流程的自我监督之外，AI安全不能完全由开发者自我定义，而是要向有能力独立评估AI风险的研究者、记者和公民社会开放，使学术界有足够的计算资源和数据访问权，具备监督AI头部机构的实质性对等能力。

此外，AI安全也需要适度的国家监管。欧盟在这方面已先行一步，于2024年7月通过了《欧洲AI法案》(Regulation (EU) 2024/1689)，已按不同阶段开始分批实施。该法案将AI应用划分为三个风险类别。第一，明令禁止风险不可接受的应用和系统，例如由政府主导的大规模人脸识别和社会信用评分体系。第二，须满足特定法律要求的高风险应用，例如用于筛选求职者并对其排名的简历扫描工具。第三，未被明确禁止并列为高风险的应用，这类应用在很大程度上不受监管。

当然，单一国家或共同体的监管在开源模型面前效力有限。真正的结构性保障需要国际原子能机构这样的国际监督框架，但当前的地缘政治格局使这一目标极难实现，大国之间的AI竞争逻辑与合作监管逻辑之间存在根本张力。AI安全需要manbetx app苹果治理，但manbetx app苹果治理的前提是最低限度的政治互信。在当前大国竞争逻辑面前，这个前提并不成立。在引领AI发展的中美欧三大板块中，三套不同的价值体系和治理逻辑正在并行演化：美国主张市场自律，欧盟制定了权利优先的监管模式，manbetx3.0 则强调国家主导与社会稳定。manbetx3.0 肯定不接受欧盟对“高风险AI”的定义，欧盟禁止的大规模监控正是其AI部署的核心场景；美国科技公司则抱怨欧盟AI法案对隐私权等权利的过度保护扼杀创新，更倾向于行业自律。目前三套框架之间没有仲裁机制，也没有共同的价值基础。如果各国都有完全不同的AI价值框架，那么AI安全的国际协调从何谈起？这个问题目前没有令人满意的答案，但它的答案将深刻影响未来数十年人类社会的组织方式。

可能的出路不是某一套具体宪法的普世化，而是围绕最低限度禁区建立多边共识，类似于国际人道法对战争行为划定若干绝对底线。这个底线可能极其有限，譬如不得用AI设计针对平民的生物武器，但即便如此有限的共识，在当前地缘政治格局下也不易达成。尤其是因为AI能力是军民两用的，几乎不存在纯粹的民用AI研究，因而任何合作都同时具有潜在的军事敏感性，双方国内的政治压力都会指向收紧而非开放。

然而，有限合作仍然是可能的。即使无法合作研发，双方技术专家之间关于“什么构成不可接受的AI能力”话题仍有对话价值。类似冷战时期美苏之间的核风险沟通，这种对话不需要信任，只需要共同的危机意识和自我保全动机。当前，中美完全脱钩对双方都有代价，因而维持一种竞争为主、有限接触为辅的不稳定均衡对双方来说都是上策。

其实，撇开政治，不同民族之间的对话与合作是完全可能的。宪法AI本身固非价值中立，而是包含了无害、诚实、有益等具体原则，但这些原则并非政治意识形态。不同民族对“有害”的定义可能不同，“诚实”的边界也未必完全重叠，但他们的分歧究竟有多大呢？至少在维护和平、拒绝战争、尊重生命这些基本底线上，他们的诉求很大程度上是一致的。安全、诚实、有益、尊重用户自主权等底线原则可以成为各国主流共识，在此基础上构建具有普世正当性的“世界AI宪法”，用以指导和监督各国AI立法及其实践符合安全底线。世界AI宪法不涉及任何意识形态，而只是以尊重人的生命为中心，要求各国立法对AI设置安全底线，譬如禁止鼓励战争或恐怖主义、禁止帮助制造大规模杀伤性武器、禁止诱导自杀、禁止系统性欺诈。

在组织架构上，世界AI宪法或许可以借鉴WTO，设立以诉讼为中心的“世界AI组织”(WAIO)，其主要职能包括调查、起诉、审查与裁定。WAIO由各成员国派出的专家组成，其主体包括检察院与法院两大分支。检察院负责调查各国立法对AI的规管与执行是否符合世界AI宪法原则，并决定起诉涉嫌违宪的成员国。世界AI法院则负责审理诉讼请求，并作出终审裁定。被裁定违宪的成员国有义务改进其立法或实践，以符合世界AI宪法的底线要求。如果成员国拒绝修改，那么其它成员国可合法“放逐”该成员国——禁止该国研发的AI产品进入其它成员国市场，并禁止该国使用其它成员国研发的AI产品，直至其立法及其实践被裁定符合世界AI宪法。通过这种机制，世界AI组织有望营造一个安全健康的manbetx app苹果 AI生态。

令人担忧的是，目前AI世界已基本形成单极化趋势，美国在前沿模型方面遥遥领先，欧洲则因管制过度而严重落后，manbetx3.0 可能是未来唯一的制衡力量。无论是二战后的美苏争霸还是冷战结束后的美国单极秩序，权力垄断都被证明是极其危险的。即便自由民主政权或许更爱好和平——这一点其实在一般意义的国际关系中并不成立，自由民主秩序的衰败也将造成巨大危机，正如现在发生在美国的那样。如果今年中期选举或2028年大选并不能给美国的宪政民主带来转机，那么几乎看不到什么能遏制美国的威权主义发展趋势。这样的国家同时掌握着最强大的军事和AI力量，对于这个世界意味着什么是不言而喻的。即便美国民主起死回生，几乎不可改变的总统制仍然会给未来的宪政危机埋下伏笔，单极格局仍然是危险的。这是世界从最近80年风风雨雨中必须吸取的深刻教训。

只有自由民主占主导的世界秩序才能带来稳定的和平，而这意味着必须形成多极制衡的国际格局。如果在科技或军事上严重依赖某一个国家——即便是自由民主国家，那么这在本质上并非自由民主秩序。这是二战之后自由民主阵营的根本局限所在，也是它今天陷入困局的根本原因。真正的自由民主意味着权力与责任的共享、收益与成本的均摊。作为最新和未来最强大的力量，AI发展及其规制不能由一两个国家垄断。至少，这种巨大的力量必须纳入各国参与的规则约束体系之中。这就是为什么宪法AI必须进化到世界AI宪法，最危险的力量必须被关进由各文明国家共同打造的制度笼子里。

（注：本文仅代表作者个人观点。责编邮箱bo.liu@www.acphonor.com）

宪法AI与人格规训（下）：从宪法AI到世界AI宪法

排序方式
读者评论

相关文章

相关话题

宪法AI与人格规训（下）：从宪法AI到世界AI宪法

排序方式 最新的在上方 最早的在上方 按热门程度 读者评论

相关文章

相关话题

推荐阅读

排序方式
读者评论