Claude Code内置网页自动化：Thunderbit能替你做什么

前言

你在写代码的时候，有没有遇到过这样的场景：需要从某个网页抓一批数据，比如竞品价格、招聘帖信息、论文摘要，然后复制粘贴到表格里，结果页面结构乱七八糟，手动整理花了半小时？

这不是最痛苦的。更痛苦的是——你下个月还要再抓一次，因为数据会更新。这意味着你要么建一个爬虫脚本专门处理这个页面（然后下次网站改版脚本就废了），要么每次手动重复复制粘贴。

Thunderbit 解决的就是这个。它不是一个"更快的爬虫"，而是把网页自动化做成了你开发工具链里的一个内置能力——你在 Claude Code 里直接说"把这个页面的产品信息提取出来"，它就能搞定，不需要切换窗口，不需要写正则，不需要懂网页结构。

它能做什么

Thunderbit 设计了三个核心场景，分别对应不同的使用深度：

Distill（提炼）—— 快速理解一个页面

当你需要快速了解一个页面的内容，而不是提取具体数据时，Distill 是最好的选择。它把任意网页转成干净、可读的 Markdown，Claude Code 问一句"这个页面主要讲什么"就能得到答案。

举个例子：你刚收到一个竞品分析任务，要快速过一遍 10 个竞品官网。传统做法是逐个打开、复制、粘贴，记笔记。Thunderbit 的做法是：给 Claude Code 一个 URL 列表，说"帮我提炼每个页面的核心产品定位"，5 分钟内拿到结构化的总结。

这个能力的价值在于：它不只是把 HTML 转成文本，而是用 AI 理解页面内容，把噪音（导航栏、广告、弹窗）去掉，只保留核心信息。

Extract（提取）—— 结构化数据提取

当你知道要什么数据，但不知道页面结构时，Extract 更适合。它的工作方式是：先让 AI 分析页面结构，找到目标字段（价格、评分、日期、作者），然后输出结构化的 JSON 或表格。

一个具体场景：你要抓一个技术博客的文章列表，包括标题、发布日期、阅读量。以前你可能要先写一个爬虫脚本，分析 DOM 结构，找到对应的 class 或 XPath，然后调试各种边界情况（分页、懒加载、反爬）。现在你只需要说"把这个博客首页的文章列表提取出来，包含标题、日期和阅读量"，Thunderbit 会自己判断字段在哪里，然后输出结构化的数据。

如果你不确定页面有什么字段，它还提供"Suggest fields"功能——免费，让 AI 先分析页面，然后推荐可能有哪些字段供你选择。

Batch（批量）—— 一次搞定 100 个 URL

当你要抓的不是单个页面，而是一批 URL（比如 30 个竞品的产品页），Batch 模式可以一次发起最多 100 个并发任务，按 URL 数量计费。适合竞品调研、市场监控、内容聚合这类需要定期重复的工作。

怎么接入

Thunderbit 最有意思的地方是它的接入方式——它不是另一个要单独打开的网页应用，而是直接融进你现有的开发工具链：

CLI 工具

最轻量的接入方式，适合脚本化使用。你可以在自己的脚本里调用 CLI，把网页数据提取变成管道的一部分：

npm i -g @thunderbit/thunderbit-cli
export THUNDERBIT_API_KEY=your_key_here
thunderbit distill https://example.com -f markdown

MCP Server（模型上下文协议）

MCP 是一种让 AI 工具和外部数据源交互的标准协议。Thunderbit 实现了完整的 MCP Server，注册后提供 7 个工具：

thunderbit_distill：提炼页面内容
thunderbit_extract：提取结构化数据
thunderbit_suggest_fields：AI 推荐字段
thunderbit_batch_create、batch_status、batch_results、batch_cancel：批量任务管理

注册到 Claude Desktop 或 Cursor 后，这些工具直接出现在 AI 的工具列表里，你用自然语言就能调用。

Claude Code 插件

如果你用 Claude Code，Thunderbit 还提供了一个更封装的方式：内置 4 个 skills，针对不同场景预定义好的工作流。你不需要理解 MCP 是什么，直接说"帮我抓这个页面"就能用。

这种集成的本质是：Thunderbit 把网页自动化这件事，做成了开发工作流里的一个顺手工具——你能用自然语言指挥它抓什么、怎么整理，而不是学习一门新的 DSL 或者写复杂的配置。

多少钱

Thunderbit 的计费基于 credit 消耗：

操作	Credit 消耗
Distill（提炼）	1 credit / 次
Extract（提取）	20 credits / 次
Suggest fields（字段推荐）	免费
Batch（批量）	按 URL 数量计费
状态轮询	免费

免费额度足够轻度使用——每月有一定量的免费 credit，如果只是偶尔抓几个页面，不需要付费。

适合谁

适合用 Thunderbit 的人：

已经用 Claude Code 或 Cursor 写代码的开发者——不需要切换工具，命令行里直接搞定网页数据
需要定期抓数据的分析师或运营——比如每周抓一次竞品价格、每月整理一批招聘帖
做内容聚合或市场研究的人——需要从多个来源汇总信息，Thunderbit 的 Batch 模式能显著提升效率

不适合用 Thunderbit 的人：

需要抓取有强反爬机制的页面（比如电商平台的动态内容）——它不是为绕过反爬设计的
需要完整数据库级别的爬虫方案——Thunderbit 更适合"顺手抓一下"而不是"建一个长期爬虫系统"
完全不懂代码的人——CLI 和 MCP 的使用还是需要一定的技术背景

技术实现

Thunderbit 的核心是一个 AI Agent，它的工作流程是：接收自然语言指令 → 分析目标网页结构 → 判断数据字段位置 → 输出结构化数据。

这个流程和传统爬虫最大的区别是：传统爬虫依赖固定的 DOM 结构（class、XPath、CSS selector），网页改版就废了；而 Thunderbit 用 AI 理解页面内容，它知道"价格在产品卡片的右侧，通常是 ¥XX 的格式"，所以即使网页改版，它也能适应。

它和 Claude Code 通信靠的是 Model Context Protocol（MCP），这也是为什么它能直接装进 Claude Code 的工具列表里——不需要额外的适配层，工具直接出现在 Claude Code 的可用技能中。

总结

Thunderbit 解决的不是"爬虫快不快"，而是"爬虫这件事能不能更顺滑地融进开发工作流"。

对于已经用 Claude Code 写代码的人来说，它把网页数据提取变成了一个"顺手的工具"而不是"独立的任务"。你可以直接在正在写的代码旁边加一句"帮我把这个页面的数据抓出来"，不需要切换窗口、不需要写正则、不需要维护爬虫脚本。

对于需要频繁抓数据但不是程序员的用户，它的门槛还是有一定的高度——CLI 和 MCP 的使用需要技术背景，但它提供的价值（自动化、自然语言交互）值得学习成本。