FT商学院

Anthropic在“越狱”技术上取得进展,可以阻止AI模型产生有害结果

包括微软和Meta在内的领先科技集团也投资于类似的安全系统。

人工智能初创公司Anthropic展示了一种新技术,能够防止用户从其模型中获取有害内容。包括微软(Microsoft)和Meta在内的领先科技集团正在竞相寻找应对尖端技术带来危险的方法。

在周一发布的一篇论文中,总部位于旧金山的初创公司介绍了一种名为“宪法分类器”(constitutional classifiers)的新系统。该模型充当大型语言模型之上的保护层,例如驱动Anthropic公司Claude聊天机器人的模型,能够监控输入和输出中的有害内容。

Anthropic正在洽谈以600亿美元的估值筹集20亿美元的资金,而此时行业对“越狱”的担忧日益增加——即试图操控AI模型生成非法或危险信息,例如生成制造化学武器的指令。

您已阅读25%(314字),剩余75%(966字)包含更多重要信息,订阅以继续探索完整内容,并享受更多专属服务。
版权声明:本文版权归manbetx20客户端下载 所有,未经允许任何单位或个人不得转载,复制或以任何其他方式使用本文全部或部分,侵权必究。
设置字号×
最小
较小
默认
较大
最大
分享×