介绍电脑使用:全新的 Claude 3.5 十四行诗和 Claude 3.5 俳句
今天,我们宣布推出升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 在各方面都比前代有所提升,尤其是在编码领域已有显著领先。而 Claude 3.5 Haiku 在多项评估中与之前我们最大的模型 Claude 3 Opus 表现相当,且成本不变,速度与上一代 Haiku 相近。
我们还在公测中引入了一项革命性的新功能:计算机操作。从今天起,开发者可以通过 API 让 Claude 像人类一样使用计算机——查看屏幕、移动光标、点击按钮和输入文本。Claude 3.5 Sonnet 是首个在公测中提供计算机操作的前沿 AI 模型。目前,它仍处于实验阶段,有时操作会显得笨拙且容易出错。我们提前发布这一功能是为了获取开发者的反馈,并预计这一能力会随着时间迅速改进。
Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经在探索这些可能性,执行那些需要几十甚至上百个步骤才能完成的任务。比如,Replit 利用 Claude 3.5 Sonnet 的计算机使用和用户界面导航功能,开发一个关键功能,可以在构建 Replit Agent 产品时评估应用程序。
升级后的 Claude 3.5 版本现在向所有用户开放。从今天起,开发者可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 使用计算测试版。新的 Claude 3.5 版本将于本月晚些时候发布。
克劳德 3.5:行业领先的软件工程技能
更新后的 Claude 3.5 Sonnet 在行业基准测试中表现出显著的改进,尤其在代理编码和工具使用任务上有显著提升。在编码方面,它将 SWE-bench Verified 上的成绩从 33.4%提高到 49.0%,得分超过了所有公开可用的模型,包括像 OpenAI o1-preview 这样的推理模型和专门为代理编码设计的系统。在 TAU-bench 代理工具使用任务中,它在零售领域的表现从 62.6%提升到 69.2%,在更具挑战性的航空领域的表现从 36.0%提升到 46.0%。新的 Claude 3.5 Sonnet 在价格和速度上与其前代产品相同。
早期客户反馈表明,升级后的 Claude 3.5 Sonnet 在 AI 驱动编程方面有了显著的飞跃。GitLab 在测试该模型用于 DevSecOps 任务时发现,它在没有增加延迟的情况下,推理能力在各种用例中最高提升了 10%,使其成为多步骤软件开发流程的理想选择。Cognition 使用新款 Claude 3.5 Sonnet 进行自主 AI 评估,发现与前一版本相比,它在编程、规划和解决问题方面有显著提升。Browser Company 在使用该模型自动化网页工作流程时表示,Claude 3.5 Sonnet 的表现优于他们之前测试的所有模型。
作为我们继续与外部专家合作的一部分,美国人工智能安全研究所(US AISI)和英国安全研究所(UK AISI)对新 Claude 3.5 Sonnet 模型进行了联合预部署测试。
我们还评估了升级后的 Claude 3.5 Sonnet 在灾难性风险方面的表现,发现根据我们的责任扩展政策中所述的 ASL-2 标准依然适用于该模型。
Claude 3.5 俳句:尖端技术,兼具实惠与速度
Claude 3.5 Haiku 是我们最快模型的下一代。它保持与 Claude 3 Haiku 相同的成本和速度,但在各项技能上都有所提升,甚至在许多智力基准测试上超越了上一代最大型号 Claude 3 Opus。Claude 3.5 Haiku 在编程任务方面尤为出色。例如,它在 SWE-bench Verified 测试中获得了 40.6% 的高分,超过了许多使用最新公开模型的代理,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
由于低延迟、改进的指令追踪和更准确的工具使用,Claude 3.5 Haiku 非常适用于面向用户的产品、专门的子代理任务以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。
Claude 3.5 将在本月晚些时候通过我们的第一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上线——最初仅支持文本输入,随后将增加图像输入。
教导克劳德如何负责任地使用电脑
使用计算机时,我们在尝试一些全新的东西。我们不再为克劳德完成每个具体任务制作特定工具,而是教会它通用的计算机技能——让它能够使用各种为人设计的标准工具和软件程序。开发人员可以利用这项新生的能力来自动化重复的流程,构建和测试软件,并进行如研究等开放式任务。
为了实现这些通用技能,我们开发了一个 API,使 Claude 可以感知并与计算机界面进行互动。开发人员可集成该 API,允许 Claude 将指令(例如,“使用我电脑和网络上的数据填写这张表格”)转化为计算机命令(例如,检查电子表格;移动光标打开浏览器;导航到相关网页;用页面上的数据填写表格;等等)。在 OSWorld 上,评估 AI 模型使用计算机能力的测试中,Claude 3.5 Sonnet 在仅使用截屏类别的得分为 14.9%,显著高于下一个最佳 AI 系统的 7.8%。当允许执行更多步骤时,Claude 的得分达到了 22.0%。
虽然我们预计这种功能将在未来几个月内迅速提升,但 Claude 目前在使用计算机方面还有不足。一些人轻松完成的操作——如滚动、拖动和缩放——对于 Claude 来说依然是挑战。我们鼓励开发者从低风险任务开始探索。因为使用计算机可能成为垃圾邮件、错误信息或欺诈等熟悉威胁的新途径,我们采取了主动措施以确保安全部署。我们开发了新的分类器,可以识别计算机使用的时机及可能产生的危害。关于这种新功能的研究过程和安全措施的深入讨论,请阅读我们关于开发计算机使用的文章。
展望未来
从这项技术的早期应用中学习,这仍处于起步阶段,将帮助我们更好地理解日益强大的人工智能系统的潜力和影响。
我们很高兴您能体验我们的新模型和计算机使用公开测试版,并欢迎您与我们分享您的反馈。我们相信这些进展将为您与 Claude 的合作带来新的可能性,我们期待看到您的创作。