当脚本和API都不够用时:Computer Use 试图解决什么
很多开发者都遇到过这种情况:你想自动化一个流程,但既没有现成 API 可以调用,写脚本又太复杂——因为它涉及在不同应用之间切换、识别屏幕内容、做一系列判断。传统的 RPA(机器人流程自动化)工具需要预先编写详细规则,API 只能处理结构化数据。但现实中的大量任务恰恰介于两者之间:既不是纯数据处理,也不是简单的点击操作。
Anthropic 在 2024 年 10 月 22 日发布的 Computer Use 功能,正是试图填补这个空白。它让 Claude 3.5 Sonnet 能够「看见」屏幕内容、「移动」光标、「点击」按钮、「输入」文字——就像一个真实用户在操作电脑一样。Anthropic 将其定位为「教 Claude 通用电脑技能」而不是「为每种任务开发专用工具」,这意味着同一个模型理论上可以处理各种你在电脑上能完成的操作。
核心能力与真实性能数据
Computer Use 的本质是把屏幕截图作为输入,让模型推理出应该执行什么操作,然后调用工具完成点击、输入、滚动等行为。这种思路在学术界被称为「GUI Agent」或「计算机使用代理」。
那么它实际表现如何?以下是几个关键基准的真实数据:
SWE-bench Verified(软件工程任务):升级后的 Claude 3.5 Sonnet 从 33.4% 提升到 49.0%。这是一个显著进步,但意味着约一半的任务仍然无法完成。
OSWorld(操作系统任务):这是最接近「真实使用电脑」的场景。Sonnet 在截图类任务中达到 14.9%,相比次优 AI 系统的 7.8% 几乎翻倍;多步任务中达到 22.0%。这个数字意味着:如果让模型独立完成一个需要在系统层面操作的任务,大约每 5-7 次能成功 1 次。
TAU-bench(零售和航空场景):零售场景从 62.6% 提升到 69.2%,航空场景从 36.0% 提升到 46.0%。零售场景表现较好,可能因为界面更标准化;航空场景复杂度更高,提升空间也更明显。
这些数据揭示了一个关键现实:Computer Use 在特定场景下已经可用,但远未达到「替代人类操作」的水平。它更适合作为辅助工具,帮助人类完成复杂流程中的部分环节。
谁应该关注这个功能
基于官方公布的客户案例和能力边界,以下几类人最值得关注 Computer Use:
开发者与测试工程师:Replit 使用该功能评估自己正在构建的应用,Cognition 用它做自主 AI 评估。如果你需要自动化测试 UI、验证应用行为,这比写死脚本更灵活。
RPA 场景的优化者:传统 RPA 需要为每个流程写详细规则,Computer Use 的优势在于它能处理规则不固定的场景——比如「根据屏幕内容判断下一步」。
需要处理长流程的团队:官方提及的典型任务是「几十甚至几百步」才能完成的任务。如果你有一个需要跨多个应用、涉及大量手动操作的流程,可以考虑用 Computer Use 替代部分人工。
但如果你属于以下情况,可能需要谨慎:对可靠性要求极高的生产环境(当前成功率决定了它不适合关键路径);需要实时响应的场景(多步推理需要时间);界面极度复杂或非标准化的应用。
三家早期客户的具体用法
了解一个功能的最好方式,是看别人怎么用。以下是 Anthropic 公开的三家早期客户案例:
Replit:他们用 Computer Use 评估自己正在开发的应用。具体来说,Replit Agent 生成代码后,会让 Claude 通过 Computer Use 功能实际运行和测试这些代码,从而验证功能是否正常工作。这解决了一个痛点:传统评估只能看代码结构,无法真正验证运行时行为。
GitLab:在 DevSecOps 任务中,GitLab 报告推理能力提升了 10%,且没有增加延迟。对于需要安全审查、合规检查的开发和运维流程,这意味着 AI 能处理更复杂的判断,同时保持响应速度。
Cognition:这家公司专注于自主 AI 评估,用 Computer Use 做编码、规划和问题解决的综合评估。简单说,他们让 AI 完成需要多步骤操作的任务,然后评估 AI 的规划能力和执行质量。
这三个案例有一个共同点:都不是直接面向终端用户的「生产力工具」,而是用 Computer Use 来评估和验证其他系统。它们共同指向一个定位:Computer Use 目前更适合作为「质检员」而不是「操作员」。
当前局限与入门门槛
任何评估都应该诚实面对限制。以下是 Computer Use 当前的主要问题:
成功率仍然有限:OSWorld 14.9% 的截图类任务成功率意味着,它无法单独完成大多数需要电脑操作的任务。更现实的用法是人类在旁监督,关键时刻介入。在 2024 年 12 月 3 日更新的定价信息中,Claude 3.5 Haiku 的价格是 $0.80/MTok input、$4/MTok output,升级版 Sonnet 与前代同价同速——但官方并未公布 Computer Use 功能的额外调用成本。
安全与合规考虑:Anthropic 提到 US AISI 和 UK AISI 联合进行了部署前测试,并采用 ASL-2 Standard(Responsible Scaling Policy)。他们还开发了新的分类器来识别 Computer Use 是否被使用以及是否产生危害。如果你需要在受监管环境中使用,需要确认这些安全措施是否满足你的合规要求。
获取渠道:Computer Use 通过 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 提供。中国大陆的具体可访问性未在公开信息中说明。
与 OpenAI Operator 的关系:虽然外界常将两者对比,但 OpenAI Operator 是 2025 年 1 月发布的产品,不在本文讨论范围内,也不应该基于未公开的信息做对比。
结论与建议
综合来看,Computer Use 是一个有明确价值的实验性功能,但不适合在 2024 年底投入生产关键路径。它的最佳定位是:
- 自动化测试与评估场景(正如 Replit 和 Cognition 所做)
- 复杂流程的辅助工具(人类监督 + AI 执行)
- 需要跨应用操作的原型验证
如果你符合这些场景,值得投入时间探索;如果你的需求是「替代人工完成确定性的电脑操作」,当前阶段可能还需要等待技术进一步成熟。
推荐指数:4/5。扣掉的一分不在于功能本身不够好,而在于它更适合「探索」而非「生产」。它是 AI 迈向通用电脑操作能力的重要一步,但作为用户,你需要为不完美做好准备,并设计好人类介入的机制。