Anthropic在“越狱”技术上取得进展，可以阻止AI模型产生有害结果

人工智能初创公司Anthropic展示了一种新技术，能够防止用户从其模型中获取有害内容。包括微软(Microsoft)和Meta在内的领先科技集团正在竞相寻找应对尖端技术带来危险的方法。

在周一发布的一篇论文中，总部位于旧金山的初创公司介绍了一种名为“宪法分类器”(constitutional classifiers)的新系统。该模型充当大型语言模型之上的保护层，例如驱动Anthropic公司Claude聊天机器人的模型，能够监控输入和输出中的有害内容。

Anthropic正在洽谈以600亿美元的估值筹集20亿美元的资金，而此时行业对“越狱”的担忧日益增加——即试图操控AI模型生成非法或危险信息，例如生成制造化学武器的指令。

您已阅读25%（314字），剩余75%（966字）包含更多重要信息，订阅以继续探索完整内容，并享受更多专属服务。

人工智能