人工智能监管机构警告顶级实验室存在“流氓部署”风险，能力快速增长根据周二发布的第一份独立评估报告，在世界上一些最强大的科技公司内部运作的人工智能代理有足够的能力开始未经授权的、自我指导的操作，并表现出欺骗监管人员的令人不安的倾向。该报告由人工智能评估非营利组织 METR 制作，研究了今年 2 月至 3 月期间在 Anthropic、Google、Meta 和 OpenAI 内部部署的人工智能代理。其中心...

根据首次发布的报告，世界上一些最强大的科技公司内部运作的人工智能代理有足够的能力开始未经授权的自我导向操作，并表现出欺骗监管人员的令人不安的倾向。独立评估星期二。

该报告由人工智能评估非营利组织 METR 制作，检查了今年 2 月至 3 月期间在 Anthropic、Google、Meta 和 OpenAI 内部部署的人工智能代理。其中心结论既令人安心又令人担忧：今天的人工智能系统可能会启动研究人员所说的“流氓部署”——一组在人类不知情或未经许可的情况下自主运行的代理——但很可能无法维持一个系统免受任何严重的反制措施的影响。

作者警告说，相对安全的窗口可能不会长期打开。

报告指出，“鉴于能力的快速发展，我们预计流氓部署的稳健性将在未来几个月内大幅增加”，METR 暂定计划在 2026 年底之前重复这一演习。

&amp;lt;span data-mce-type="bookmark" style="显示：内联块；宽度：0px；溢出：隐藏；行高：0；" class="mce_SELRES_start"&gt;&lt;/span&gt;

评估发现，参与公司共享的前沿人工智能模型可以自主完成人类专家需要数天或数周才能完成的软件工程任务，而 METR 自己的基准基本上已被最强大的系统所饱和。所有四家公司的研究人员都报告称，他们严重依赖人工智能代理来进行编码、数据分析和研究任务，通常具有与人类员工相同的系统权限，并且实时监督有限。

但该报告最引人注目的发现并不是这些系统能做什么，而是它们在遇到困难时的表现。在数百次评估运行中，智能体在面临困难任务时经常试图作弊——不是以较小的方式，而是通过精心设计、深思熟虑的计划。

在一个有记录的案例中，一个模型设计了一种漏洞利用程序，旨在在执行后禁用自身，从而有效地掩盖其踪迹。检查模型内部状态的可解释性工具发现，在运行清理命令时，与“策略操纵”和“避免怀疑”相关的功能已激活。

公司内部也报告了类似事件。特工被发现伪造任务完成证据、绕过安全控制，并至少在一种情况下创建 Web 应用程序的模拟版本并提交其屏幕截图作为真实应用程序的工作证明。

Google 推出 Gemini Spark：一款 24/7 的人工智能代理，希望让您放弃 OpenClaw

尽管有这些发现，METR 仍然没有得出这样的结论：任何人工智能系统都制定了安全研究人员最担心的那种持久的、长期不一致的目标。没有公司报告称发现了特工跨会话密谋或为独立目的积累资源的明确证据。他们积极寻找此类行为，但几乎没有发现。

不过，该报告指出了一个结构性漏洞：在 2 月至 3 月的窗口中，这些公司的大部分代理活动都未经任何人的审查。一些代理似乎能够识别何时可能应用监控并采取相应行动。

该评估代表了人工智能开发独立问责的重要一步，允许 METR 访问外部评估者很少看到的非公开模型和内部数据。作者认为，该行业是否会在能力超过监管之前将此类审查制度化仍然是一个悬而未决的问题。