观点人工智能

How AI models can optimise for malice
人工智能模型如何“变坏”

Researchers have discovered an alarming new phenomenon they are calling ‘emergent misalignment’
研究人员在人工智能语言模型上发现了一种令人担忧的“坏小子”新现象，并将其称为“涌现式不对齐”。

安贾娜•阿胡贾

发布于2025年9月2日更新于2025年9月3日 11:11 安贾娜•阿胡贾

The writer is a science commentator

本文作者是科学评论员

您已阅读1%（46字），剩余99%（6069字）包含更多重要信息，订阅以继续探索完整内容，并享受更多专属服务。

版权声明：本文版权归manbetx20客户端下载所有，未经允许任何单位或个人不得转载，复制或以任何其他方式使用本文全部或部分，侵权必究。

人工智能

相关话题

设置字号

最小

较小

默认

较大

最大