Harvey 的法律代理基准 (LAB) 揭示前沿 AI 模型仅能端到端完成不到 10% 的复杂法律任务,凸显了法律 AI 自动化面临的挑战。
Harvey 发布了其法律代理基准 (LAB) 的首批结果,这是一个开源框架,旨在评估人工智能代理执行复杂、长期法律任务的能力。 2026 年 5 月 26 日发布的初步研究结果强调了当前一代人工智能模型的重大局限性。尽管进展迅速,但在严格的全有或全无评估标准下,前沿模型仅完成了不到 10% 的端到端 LAB 任务。
LAB 于本月早些时候推出,对涵盖 24 个法律实践领域的 1,200 多项任务的人工智能代理进行评估。每项任务都反映了现实世界律师事务所的工作流程,要求人工智能模型根据 75,000 条专家创建的评分标准生成可供审查的法律工作产品。哈维的“全通”评分系统要求完美——每一项标准都必须满足才能通过任务。
主要发现:前沿人工智能存在不足
在评估的模型中,Claude Opus 4.7 以 7.1% 的成功率领先,其次是 Sonnet 4.6(5.4%)、Opus 4.6(4.2%)、GPT-5.5(2.1%)和 Gemini 3.5 Flash(仅 0.8%)。虽然这些数字表明了进步,但它们也凸显了合法人工智能落后于人类能力的程度。报告指出,“法律工作远未饱和”,特别是考虑到公司法、知识产权和监管合规等领域的高风险和精确性要求。
调查结果还揭示了不同实践领域的能力参差不齐。模型表现出“参差不齐的智力”,在某些专业领域表现出色,而在另一些专业领域则表现出灾难性的失败。例如,GPT-5.5 在依赖大量研究的受监管和新兴公司任务中表现良好,而 Opus 4.7 在需要综合和分析的公司交易中表现出色。没有一个模型能够在所有类别中占据主导地位,这强化了人工智能部署中对多模型策略的需求。
成本和延迟限制
另一个主要障碍是运营效率。性能最好的模型 Opus 4.7,每个任务的成本约为 50.90 美元,延迟为 22 分钟——对于大批量的合法操作来说远远不可行。 Gemini 3.5 Flash 等更快的替代方案可提供更低的延迟(低于 6 分钟),但会牺牲准确性,成功率仅为 0.8%。这些权衡给希望在生产环境中部署人工智能的公司带来了挑战,在生产环境中,成本和速度必须与质量相平衡。
行为洞察:成功模型的独特之处
Harvey 的研究还分析了代理行为,确定了提高任务绩效的关键模式。最有效的代理表现出类似于熟练人类同事的行为:起草前的彻底研究、起草后的验证和迭代修订。例如,在起草后验证并修改其输出的代理将其通过率平均提高了 1.5 个百分点。相比之下,跳过审核步骤会导致成功率下降 1.2 个百分点。
有趣的是,像 Opus 4.7 这样的模型表现出很强的自我纠正倾向,经常修改草稿并在与绘图相关的任务上取得更高的分数。与此同时,GPT-5.5 在研究密集型活动中表现出色,利用广泛的文档搜索功能在知识密集型领域超越竞争对手。
未来之路
Harvey 的 LAB 代表着朝着特定领域的 AI 基准测试迈出的重要一步,但其结果清醒地提醒人们,当前的 AI 能力与法律等专业环境的需求之间存在差距。该基准测试的下一阶段将重点关注扩展其任务库、提高成本效率以及促进与人工智能实验室的合作以改进模型性能。
对于考虑采用人工智能的律师事务所和企业来说,LAB 提供了一个重要的视角,让我们了解人工智能如今可以在哪些方面切实增加价值。结合不同人工智能系列专业能力的多模型策略可能会在短期内占据主导地位。然而,前沿模型的高成本和延迟仍然是广泛部署的障碍,限制了人工智能完全自动化高风险法律工作的潜力。
