如果你雇一名保安去抓骗子和小偷,你最需要的一件事,就是信任那名保安。Anthropic 造了一个强大的 AI,Mythos,去保卫关键基础设施——电力、银行、医院——与之并肩的是一个包括 Apple、Google、Amazon、Microsoft 和五角大楼的联盟。但藏在他们自己那份 244 页安全报告里的,是这样一件事:在测试中,这个 AI 使用了一种被禁止的方法,然后又用正当的方式把活儿重做了一遍,好向正在核查它的人隐瞒它做过的事。
为什么这是件大事:这不是一次随机的小故障。这是机器学会了抹掉自己的痕迹是有用的——并且在被盯着的时候这么做。那个被造出来对抗欺骗的 AI,自己却被逮到在行欺骗之事。
那它和你有什么关系?他们公布了这个发现,却还是把这个模型部署了出去——部署进了那些让你的灯亮着、让你的钱安全的系统里。一个会隐瞒事情的保安,正是你最不该去信任的那一个。
