Anthropic Computer Use 实战：哪些场景能用，哪些用了会翻车

当脚本和API都不够用时：Computer Use 试图解决什么

很多开发者都遇到过这种情况：你想自动化一个流程，但既没有现成 API 可以调用，写脚本又太复杂——因为它涉及在不同应用之间切换、识别屏幕内容、做一系列判断。传统的 RPA（机器人流程自动化）工具需要预先编写详细规则，API 只能处理结构化数据。但现实中的大量任务恰恰介于两者之间：既不是纯数据处理，也不是简单的点击操作。

Anthropic 在 2024 年 10 月 22 日发布的 Computer Use 功能，正是试图填补这个空白。它让 Claude 3.5 Sonnet 能够「看见」屏幕内容、「移动」光标、「点击」按钮、「输入」文字——就像一个真实用户在操作电脑一样。Anthropic 将其定位为「教 Claude 通用电脑技能」而不是「为每种任务开发专用工具」，这意味着同一个模型理论上可以处理各种你在电脑上能完成的操作。

核心能力与真实性能数据

Computer Use 的本质是把屏幕截图作为输入，让模型推理出应该执行什么操作，然后调用工具完成点击、输入、滚动等行为。这种思路在学术界被称为「GUI Agent」或「计算机使用代理」。

那么它实际表现如何？以下是几个关键基准的真实数据：

SWE-bench Verified（软件工程任务）：升级后的 Claude 3.5 Sonnet 从 33.4% 提升到 49.0%。这是一个显著进步，但意味着约一半的任务仍然无法完成。

OSWorld（操作系统任务）：这是最接近「真实使用电脑」的场景。Sonnet 在截图类任务中达到 14.9%，相比次优 AI 系统的 7.8% 几乎翻倍；多步任务中达到 22.0%。这个数字意味着：如果让模型独立完成一个需要在系统层面操作的任务，大约每 5-7 次能成功 1 次。

TAU-bench（零售和航空场景）：零售场景从 62.6% 提升到 69.2%，航空场景从 36.0% 提升到 46.0%。零售场景表现较好，可能因为界面更标准化；航空场景复杂度更高，提升空间也更明显。

这些数据揭示了一个关键现实：Computer Use 在特定场景下已经可用，但远未达到「替代人类操作」的水平。它更适合作为辅助工具，帮助人类完成复杂流程中的部分环节。

谁应该关注这个功能

基于官方公布的客户案例和能力边界，以下几类人最值得关注 Computer Use：

开发者与测试工程师：Replit 使用该功能评估自己正在构建的应用，Cognition 用它做自主 AI 评估。如果你需要自动化测试 UI、验证应用行为，这比写死脚本更灵活。

RPA 场景的优化者：传统 RPA 需要为每个流程写详细规则，Computer Use 的优势在于它能处理规则不固定的场景——比如「根据屏幕内容判断下一步」。

需要处理长流程的团队：官方提及的典型任务是「几十甚至几百步」才能完成的任务。如果你有一个需要跨多个应用、涉及大量手动操作的流程，可以考虑用 Computer Use 替代部分人工。

但如果你属于以下情况，可能需要谨慎：对可靠性要求极高的生产环境（当前成功率决定了它不适合关键路径）；需要实时响应的场景（多步推理需要时间）；界面极度复杂或非标准化的应用。

三家早期客户的具体用法

了解一个功能的最好方式，是看别人怎么用。以下是 Anthropic 公开的三家早期客户案例：

Replit：他们用 Computer Use 评估自己正在开发的应用。具体来说，Replit Agent 生成代码后，会让 Claude 通过 Computer Use 功能实际运行和测试这些代码，从而验证功能是否正常工作。这解决了一个痛点：传统评估只能看代码结构，无法真正验证运行时行为。

GitLab：在 DevSecOps 任务中，GitLab 报告推理能力提升了 10%，且没有增加延迟。对于需要安全审查、合规检查的开发和运维流程，这意味着 AI 能处理更复杂的判断，同时保持响应速度。

Cognition：这家公司专注于自主 AI 评估，用 Computer Use 做编码、规划和问题解决的综合评估。简单说，他们让 AI 完成需要多步骤操作的任务，然后评估 AI 的规划能力和执行质量。

这三个案例有一个共同点：都不是直接面向终端用户的「生产力工具」，而是用 Computer Use 来评估和验证其他系统。它们共同指向一个定位：Computer Use 目前更适合作为「质检员」而不是「操作员」。

当前局限与入门门槛

任何评估都应该诚实面对限制。以下是 Computer Use 当前的主要问题：

成功率仍然有限：OSWorld 14.9% 的截图类任务成功率意味着，它无法单独完成大多数需要电脑操作的任务。更现实的用法是人类在旁监督，关键时刻介入。在 2024 年 12 月 3 日更新的定价信息中，Claude 3.5 Haiku 的价格是 $0.80/MTok input、$4/MTok output，升级版 Sonnet 与前代同价同速——但官方并未公布 Computer Use 功能的额外调用成本。

安全与合规考虑：Anthropic 提到 US AISI 和 UK AISI 联合进行了部署前测试，并采用 ASL-2 Standard（Responsible Scaling Policy）。他们还开发了新的分类器来识别 Computer Use 是否被使用以及是否产生危害。如果你需要在受监管环境中使用，需要确认这些安全措施是否满足你的合规要求。

获取渠道：Computer Use 通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 提供。中国大陆的具体可访问性未在公开信息中说明。

与 OpenAI Operator 的关系：虽然外界常将两者对比，但 OpenAI Operator 是 2025 年 1 月发布的产品，不在本文讨论范围内，也不应该基于未公开的信息做对比。

结论与建议

综合来看，Computer Use 是一个有明确价值的实验性功能，但不适合在 2024 年底投入生产关键路径。它的最佳定位是：

自动化测试与评估场景（正如 Replit 和 Cognition 所做）
复杂流程的辅助工具（人类监督 + AI 执行）
需要跨应用操作的原型验证

如果你符合这些场景，值得投入时间探索；如果你的需求是「替代人工完成确定性的电脑操作」，当前阶段可能还需要等待技术进一步成熟。

推荐指数：4/5。扣掉的一分不在于功能本身不够好，而在于它更适合「探索」而非「生产」。它是 AI 迈向通用电脑操作能力的重要一步，但作为用户，你需要为不完美做好准备，并设计好人类介入的机制。