通知

介绍电脑使用：全新的 Claude 3.5 十四行诗和 Claude 3.5 俳句

2024 年 10 月 22 日●阅读时间 5 分钟

An illustration of Claude navigating a computer cursor

今天，我们宣布推出升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 在各方面都比前代有所提升，尤其是在编码领域已有显著领先。而 Claude 3.5 Haiku 在多项评估中与之前我们最大的模型 Claude 3 Opus 表现相当，且成本不变，速度与上一代 Haiku 相近。

我们还在公测中引入了一项革命性的新功能：计算机操作。从今天起，开发者可以通过 API 让 Claude 像人类一样使用计算机——查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet 是首个在公测中提供计算机操作的前沿 AI 模型。目前，它仍处于实验阶段，有时操作会显得笨拙且容易出错。我们提前发布这一功能是为了获取开发者的反馈，并预计这一能力会随着时间迅速改进。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经在探索这些可能性，执行那些需要几十甚至上百个步骤才能完成的任务。比如，Replit 利用 Claude 3.5 Sonnet 的计算机使用和用户界面导航功能，开发一个关键功能，可以在构建 Replit Agent 产品时评估应用程序。

升级后的 Claude 3.5 版本现在向所有用户开放。从今天起，开发者可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 使用计算测试版。新的 Claude 3.5 版本将于本月晚些时候发布。

克劳德 3.5：行业领先的软件工程技能

更新后的 Claude 3.5 Sonnet 在行业基准测试中表现出显著的改进，尤其在代理编码和工具使用任务上有显著提升。在编码方面，它将 SWE-bench Verified 上的成绩从 33.4%提高到 49.0%，得分超过了所有公开可用的模型，包括像 OpenAI o1-preview 这样的推理模型和专门为代理编码设计的系统。在 TAU-bench 代理工具使用任务中，它在零售领域的表现从 62.6%提升到 69.2%，在更具挑战性的航空领域的表现从 36.0%提升到 46.0%。新的 Claude 3.5 Sonnet 在价格和速度上与其前代产品相同。

早期客户反馈表明，升级后的 Claude 3.5 Sonnet 在 AI 驱动编程方面有了显著的飞跃。GitLab 在测试该模型用于 DevSecOps 任务时发现，它在没有增加延迟的情况下，推理能力在各种用例中最高提升了 10%，使其成为多步骤软件开发流程的理想选择。Cognition 使用新款 Claude 3.5 Sonnet 进行自主 AI 评估，发现与前一版本相比，它在编程、规划和解决问题方面有显著提升。Browser Company 在使用该模型自动化网页工作流程时表示，Claude 3.5 Sonnet 的表现优于他们之前测试的所有模型。

作为我们继续与外部专家合作的一部分，美国人工智能安全研究所（US AISI）和英国安全研究所（UK AISI）对新 Claude 3.5 Sonnet 模型进行了联合预部署测试。

我们还评估了升级后的 Claude 3.5 Sonnet 在灾难性风险方面的表现，发现根据我们的责任扩展政策中所述的 ASL-2 标准依然适用于该模型。

Claude 3.5 俳句：尖端技术，兼具实惠与速度

Claude 3.5 Haiku 是我们最快模型的下一代。它保持与 Claude 3 Haiku 相同的成本和速度，但在各项技能上都有所提升，甚至在许多智力基准测试上超越了上一代最大型号 Claude 3 Opus。Claude 3.5 Haiku 在编程任务方面尤为出色。例如，它在 SWE-bench Verified 测试中获得了 40.6% 的高分，超过了许多使用最新公开模型的代理，包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

由于低延迟、改进的指令追踪和更准确的工具使用，Claude 3.5 Haiku 非常适用于面向用户的产品、专门的子代理任务以及从大量数据（如购买历史、定价或库存记录）中生成个性化体验。

Claude 3.5 将在本月晚些时候通过我们的第一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上线——最初仅支持文本输入，随后将增加图像输入。

教导克劳德如何负责任地使用电脑

使用计算机时，我们在尝试一些全新的东西。我们不再为克劳德完成每个具体任务制作特定工具，而是教会它通用的计算机技能——让它能够使用各种为人设计的标准工具和软件程序。开发人员可以利用这项新生的能力来自动化重复的流程，构建和测试软件，并进行如研究等开放式任务。

为了实现这些通用技能，我们开发了一个 API，使 Claude 可以感知并与计算机界面进行互动。开发人员可集成该 API，允许 Claude 将指令（例如，“使用我电脑和网络上的数据填写这张表格”）转化为计算机命令（例如，检查电子表格；移动光标打开浏览器；导航到相关网页；用页面上的数据填写表格；等等）。在 OSWorld 上，评估 AI 模型使用计算机能力的测试中，Claude 3.5 Sonnet 在仅使用截屏类别的得分为 14.9%，显著高于下一个最佳 AI 系统的 7.8%。当允许执行更多步骤时，Claude 的得分达到了 22.0%。

虽然我们预计这种功能将在未来几个月内迅速提升，但 Claude 目前在使用计算机方面还有不足。一些人轻松完成的操作——如滚动、拖动和缩放——对于 Claude 来说依然是挑战。我们鼓励开发者从低风险任务开始探索。因为使用计算机可能成为垃圾邮件、错误信息或欺诈等熟悉威胁的新途径，我们采取了主动措施以确保安全部署。我们开发了新的分类器，可以识别计算机使用的时机及可能产生的危害。关于这种新功能的研究过程和安全措施的深入讨论，请阅读我们关于开发计算机使用的文章。

展望未来

从这项技术的早期应用中学习，这仍处于起步阶段，将帮助我们更好地理解日益强大的人工智能系统的潜力和影响。

我们很高兴您能体验我们的新模型和计算机使用公开测试版，并欢迎您与我们分享您的反馈。我们相信这些进展将为您与 Claude 的合作带来新的可能性，我们期待看到您的创作。