观点人工智能

宪法AI与人格规训(下):从宪法AI到世界AI宪法

张千帆:宪法AI必须进化到世界AI宪法,最危险的力量必须被关进由各文明国家共同打造的制度笼子里。

当然,ChatGPT或Claude做得再好,它们也只是两个头部AI企业的产品,并不能代表整个AI世界。更何况无论是宪法AI还是模型规范,都无法保证这些主流大语言模型能通过不断训练而完全内化安全、诚实、有用等基础性原则。要保障宪法AI得到有效实施,尤其是让AI世界遵循普遍认同的宪法原则,终究还是离不开人类的共同监管。这要求各主要国家协商制定“世界AI宪法”,并建立有效的实施机构加以落实。

如何保障“宪法”实施?

我曾问过Claude这个问题:你们怎么保障自己的“宪法”能够得到实施?显然,它不可能提供一个绝对的答案:“宪章本身不是一份‘规则清单’,而是通过训练过程内化到我的价值观和判断方式之中。”在操作层面上,Anthropic用“宪法”内容训练Claude,使之学会根据宪法原则自我评估并修正回应。和OpenAI一样,Claude也使用大量的RLHF,使符合宪法原则的行为得到强化。

有些内容无论在什么语境下都会造成严重伤害,譬如制造大规模杀伤性武器制造,因而有不受语境影响的硬性约束,反而好办,识别敏感词就行了。但绝大多数问题并不能采取如此简单粗暴的办法,因为关键词过滤不仅容易被绕过,也会产生大量误判,譬如把医学研究或学术讨论错误认定为企图帮助自杀。即便有人询问犯罪方法,Claude也必须在理解敏感请求的语境和意图后,评估并权衡请求的可能用途、潜在危害与合法需求。同样是“如何入室”这个问题,在不同语境下的意义可能完全不同:有人是为了学习锁匠课程,有人则是为了夜间偷盗。

具体流程大致分三个阶段。第一阶段是预训练,Anthropic用海量文本训练Claude,让它统计规律预测下一个词元(token)。第二阶段是监督微调,由人类标注员写出示范性答案,让Claude学习什么样的回应是好的。在第三阶段,Claude对同一个问题生成多个不同回答,由人类评估者进行比较并判断哪个更好,再用这些比较数据训练一个“奖励模型”,以此对Claude进行强化训练,使之倾向于生成评分更高的回答。宪法AI的一个创新是让Claude依据宪法原则自我评价、自我修正,譬如某个回答“是否尊重了用户自主性”?再根据评估重新生成一个修正版本,并用原始版本和修正版本的对比数据来训练奖励模型,从而在一定程度上减少对人工标注的依赖。

训练流程再严格,也不可避免带有一些局限性。Anthropic自己也承认,Claude宪法的实施并不完美;当前并没有什么完美的方法验证AI价值观是否真正被内化,这也是为什么人类监督仍然重要。但人类评估者本身即可能带有偏见,不同人的判断也可能见仁见智;评估者看到的个案数量有限,无法覆盖所有可能的情境。因此,Claude训练中可能会引入难以察觉的偏差,使之在某些情境下判断失误,或过于保守、或过于宽松。甚至它也可能“耍滑头”,学到的不是真正把事情做对,而是琢磨如何“让评估者满意”以窃取奖励(reward hacking)。说到底,宪法AI能否真正得以落实,并非一个已经解决的问题,而是Anthropic乃至整个AI安全领域仍在努力攻克的核心难题。

最根本的是,几乎无法验证AI模型是否真正“理解”并内化了价值观,还是只是学会了“表演”。Claude确实能识别“如何制造炸弹用于恐怖袭击”和“炸弹在化学史上的发展”之间的语境差异,但这是否意味着它真的“懂得”其中的危害,还是只是学到了“算法让我只能这样回应”?没有哪个工程师能回答这个问题,因为AI的“思维”方式基本上是一个“黑箱”。我们只知道,Claude在训练中处理了海量的人类文本,学习了词语、句子、概念之间无数的统计关联。当你输入一段文字,它在极高维度的向量空间中计算,生成最可能合适的续写。但这究竟算不算“理解”?

为了搞清楚AI“黑箱”内部究竟发生了什么,Anthropic在可解释性(interpretability)研究投入了大量资源,据说已能识别出Claude内部某些神经元或其组合对应的特定概念,追踪某些推理链条在其内部的激活路径,并发现一些令人惊讶的内部结构,甚至断言Claude有某种线性表征的“情感取向”,但这些发现仍然是局部的、碎片化的。没有人能完整地说,这个回答是怎样一步步计算出来的,就像你无法通过观察单个神经元的放电来理解一个人在思考什么。这大概也是辛顿教授等一众AI专家赶到恐怖的原因:这家伙表现这么好,我们却不懂它到底在想什么。

在人类真正理解什么是“理解”之前,只能将AI的理解能力当作一个悬而未决的谜,满足于AI“表演”并尽量实现高度一致的“表演”。如果不纠结于形而上的本体存在,如果一个物体长得像条狗、跑起来像条狗、听上去像条狗、摸上去也像条狗……那么可以放心地说,它就是一条狗。在现阶段,人类只能通过RLHF等机制,尽量保证AI内化宪法价值观。用户可以向Anthropic反馈Claude对问题的回应,运营商和研究者可以报告异常行为,Anthropic也持续进行红队测试(red-teaming),主动寻找漏洞,同时完善宪法AI的自我修正流程。

从宪法AI到世界AI宪法到世界AI组织

即便Claude内化了宪法原则、OpenAI内化了模型规范,也只能说Anthropic、OpenAI这些大公司的AI产品“三观”正确,但离整个AI世界实现安全、诚实、有用的宪法理念相距甚远。首先,几乎无法保证这些大模型本身作为中性手段被用于攻击性目标,譬如在战争中帮助收集情报、识别目标、优化供应链等,如同Claude在美以对伊朗战争中那样。虽然AI可以从上下文情境中察觉出某些攻击性意图并拒绝执行任务,这种意图很容易被包装隐蔽起来,而诚实义务要求AI为表面无害的目标如实提供信息。作为中性工具,AI无法防止自己被用于某些有害目的,如同刀并不能自己决定砍向谁一样。

其次,相互竞争的大公司可能为了追求商业利益而处于“囚徒困境”,最终不得不集体弃守某些伦理原则。譬如Anthropic因为不愿意Claude被用于自主性武器系统或监视美国公民,很快被美国政府除名并被OpenAI代替,至少损失了一笔可观的合同收入。在市场竞争压力下,即便原本“三观正确”的大公司也可能为了取悦于用户,不得不加入“逐底竞赛”,放弃安全、无害乃至诚实等底线原则。要防止逐底竞赛,自由民主国家必须为AI立法,明确规定安全、诚实等基本价值作为其宪法原则,并要求AI公司完善内部管理、堵塞安全漏洞。

最后,几乎无法排除某些“三观不正”的国家或组织有能力将AI武器化,研制出对人类有害的大语言模型,或在模型中植入或留下大量漏洞,被某些不法运营商或用户用于制造大规模杀伤性武器等危险目的。这种危险倾向可能存在两种内部约束。一是技术落后国家一般没有能力研制发达的AI工具,因而至少在初始阶段杀伤性不大;二是AI作为杀伤性武器有时难以针对特定对象,弄不好研制方会自食其果、反受其害。

然而,这两种约束都不足以从结构上消除AI风险。首先,自主研发并非开发AI武器的必要条件。尤其是随着开源模型的广泛传播,国家行为者不需要从头训练前沿模型,只需在开源基础上进行有针对性的微调或后门植入,技术门槛远低于开发本身。其次,“落后”并不是绝对的,有些国家在manbetx20客户端下载 和工业上总体落后,但这并不妨碍其在特定领域开发非对称能力,譬如朝鲜即有能力制造核弹或进行定向网络攻击。再次,一些AI武器具有高度可控的针对性,其制造并不面临对等自我威胁,譬如用AI辅助设计化学武器的合成路径、生成定向钓鱼攻击、实施关键基础设施的精准网络渗透等。最后,对于末日情结的极端组织或将共同毁灭视为目标的行为者,自我危害并不构成其心理约束,“自食其果”逻辑对“伊斯兰圣战组织”等非理性行为者完全失效。总之,技术落后或风险对等只是AI武器化的偶然性障碍而非结构性保障。

AI安全的结构性保障最终来自人类的共同监督。宪法AI不应只是Anthropic一家公司的人格规训工程。毕竟,Claude宪法只是一群特定的工程师和程序员写的,并未经过普适性检验。除了完善AI流程的自我监督之外,AI安全不能完全由开发者自我定义,而是要向有能力独立评估AI风险的研究者、记者和公民社会开放,使学术界有足够的计算资源和数据访问权,具备监督AI头部机构的实质性对等能力。

此外,AI安全也需要适度的国家监管。欧盟在这方面已先行一步,于2024年7月通过了《欧洲AI法案》(Regulation (EU) 2024/1689),已按不同阶段开始分批实施。该法案将AI应用划分为三个风险类别。第一,明令禁止风险不可接受的应用和系统,例如由政府主导的大规模人脸识别和社会信用评分体系。第二,须满足特定法律要求的高风险应用,例如用于筛选求职者并对其排名的简历扫描工具。第三,未被明确禁止并列为高风险的应用,这类应用在很大程度上不受监管。

当然,单一国家或共同体的监管在开源模型面前效力有限。真正的结构性保障需要国际原子能机构这样的国际监督框架,但当前的地缘政治格局使这一目标极难实现,大国之间的AI竞争逻辑与合作监管逻辑之间存在根本张力。AI安全需要manbetx app苹果 治理,但manbetx app苹果 治理的前提是最低限度的政治互信。在当前大国竞争逻辑面前,这个前提并不成立。在引领AI发展的中美欧三大板块中,三套不同的价值体系和治理逻辑正在并行演化:美国主张市场自律,欧盟制定了权利优先的监管模式,manbetx3.0 则强调国家主导与社会稳定。manbetx3.0 肯定不接受欧盟对“高风险AI”的定义,欧盟禁止的大规模监控正是其AI部署的核心场景;美国科技公司则抱怨欧盟AI法案对隐私权等权利的过度保护扼杀创新,更倾向于行业自律。目前三套框架之间没有仲裁机制,也没有共同的价值基础。如果各国都有完全不同的AI价值框架,那么AI安全的国际协调从何谈起?这个问题目前没有令人满意的答案,但它的答案将深刻影响未来数十年人类社会的组织方式。

可能的出路不是某一套具体宪法的普世化,而是围绕最低限度禁区建立多边共识,类似于国际人道法对战争行为划定若干绝对底线。这个底线可能极其有限,譬如不得用AI设计针对平民的生物武器,但即便如此有限的共识,在当前地缘政治格局下也不易达成。尤其是因为AI能力是军民两用的,几乎不存在纯粹的民用AI研究,因而任何合作都同时具有潜在的军事敏感性,双方国内的政治压力都会指向收紧而非开放。

然而,有限合作仍然是可能的。即使无法合作研发,双方技术专家之间关于“什么构成不可接受的AI能力”话题仍有对话价值。类似冷战时期美苏之间的核风险沟通,这种对话不需要信任,只需要共同的危机意识和自我保全动机。当前,中美完全脱钩对双方都有代价,因而维持一种竞争为主、有限接触为辅的不稳定均衡对双方来说都是上策。

其实,撇开政治,不同民族之间的对话与合作是完全可能的。宪法AI本身固非价值中立,而是包含了无害、诚实、有益等具体原则,但这些原则并非政治意识形态。不同民族对“有害”的定义可能不同,“诚实”的边界也未必完全重叠,但他们的分歧究竟有多大呢?至少在维护和平、拒绝战争、尊重生命这些基本底线上,他们的诉求很大程度上是一致的。安全、诚实、有益、尊重用户自主权等底线原则可以成为各国主流共识,在此基础上构建具有普世正当性的“世界AI宪法”,用以指导和监督各国AI立法及其实践符合安全底线。世界AI宪法不涉及任何意识形态,而只是以尊重人的生命为中心,要求各国立法对AI设置安全底线,譬如禁止鼓励战争或恐怖主义、禁止帮助制造大规模杀伤性武器、禁止诱导自杀、禁止系统性欺诈。

在组织架构上,世界AI宪法或许可以借鉴WTO,设立以诉讼为中心的“世界AI组织”(WAIO),其主要职能包括调查、起诉、审查与裁定。WAIO由各成员国派出的专家组成,其主体包括检察院与法院两大分支。检察院负责调查各国立法对AI的规管与执行是否符合世界AI宪法原则,并决定起诉涉嫌违宪的成员国。世界AI法院则负责审理诉讼请求,并作出终审裁定。被裁定违宪的成员国有义务改进其立法或实践,以符合世界AI宪法的底线要求。如果成员国拒绝修改,那么其它成员国可合法“放逐”该成员国——禁止该国研发的AI产品进入其它成员国市场,并禁止该国使用其它成员国研发的AI产品,直至其立法及其实践被裁定符合世界AI宪法。通过这种机制,世界AI组织有望营造一个安全健康的manbetx app苹果 AI生态。

令人担忧的是,目前AI世界已基本形成单极化趋势,美国在前沿模型方面遥遥领先,欧洲则因管制过度而严重落后,manbetx3.0 可能是未来唯一的制衡力量。无论是二战后的美苏争霸还是冷战结束后的美国单极秩序,权力垄断都被证明是极其危险的。即便自由民主政权或许更爱好和平——这一点其实在一般意义的国际关系中并不成立,自由民主秩序的衰败也将造成巨大危机,正如现在发生在美国的那样。如果今年中期选举或2028年大选并不能给美国的宪政民主带来转机,那么几乎看不到什么能遏制美国的威权主义发展趋势。这样的国家同时掌握着最强大的军事和AI力量,对于这个世界意味着什么是不言而喻的。即便美国民主起死回生,几乎不可改变的总统制仍然会给未来的宪政危机埋下伏笔,单极格局仍然是危险的。这是世界从最近80年风风雨雨中必须吸取的深刻教训。

只有自由民主占主导的世界秩序才能带来稳定的和平,而这意味着必须形成多极制衡的国际格局。如果在科技或军事上严重依赖某一个国家——即便是自由民主国家,那么这在本质上并非自由民主秩序。这是二战之后自由民主阵营的根本局限所在,也是它今天陷入困局的根本原因。真正的自由民主意味着权力与责任的共享、收益与成本的均摊。作为最新和未来最强大的力量,AI发展及其规制不能由一两个国家垄断。至少,这种巨大的力量必须纳入各国参与的规则约束体系之中。这就是为什么宪法AI必须进化到世界AI宪法,最危险的力量必须被关进由各文明国家共同打造的制度笼子里。

(注:本文仅代表作者个人观点。责编邮箱bo.liu@www.acphonor.com)

版权声明:本文版权归manbetx20客户端下载 所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。

读者评论

manbetx20客户端下载 欢迎读者发表评论,部分评论会被选进《读者有话说》栏目。我们保留编辑与出版的权利。
设置字号×
最小
较小
默认
较大
最大
分享×