Claude Code内置网页自动化:Thunderbit能替你做什么

前言

你在写代码的时候,有没有遇到过这样的场景:需要从某个网页抓一批数据,比如竞品价格、招聘帖信息、论文摘要,然后复制粘贴到表格里,结果页面结构乱七八糟,手动整理花了半小时?

这不是最痛苦的。更痛苦的是——你下个月还要再抓一次,因为数据会更新。这意味着你要么建一个爬虫脚本专门处理这个页面(然后下次网站改版脚本就废了),要么每次手动重复复制粘贴。

Thunderbit 解决的就是这个。它不是一个"更快的爬虫",而是把网页自动化做成了你开发工具链里的一个内置能力——你在 Claude Code 里直接说"把这个页面的产品信息提取出来",它就能搞定,不需要切换窗口,不需要写正则,不需要懂网页结构。

Thunderbit配图

它能做什么

Thunderbit 设计了三个核心场景,分别对应不同的使用深度:

Distill(提炼)—— 快速理解一个页面

当你需要快速了解一个页面的内容,而不是提取具体数据时,Distill 是最好的选择。它把任意网页转成干净、可读的 Markdown,Claude Code 问一句"这个页面主要讲什么"就能得到答案。

举个例子:你刚收到一个竞品分析任务,要快速过一遍 10 个竞品官网。传统做法是逐个打开、复制、粘贴,记笔记。Thunderbit 的做法是:给 Claude Code 一个 URL 列表,说"帮我提炼每个页面的核心产品定位",5 分钟内拿到结构化的总结。

这个能力的价值在于:它不只是把 HTML 转成文本,而是用 AI 理解页面内容,把噪音(导航栏、广告、弹窗)去掉,只保留核心信息。

Extract(提取)—— 结构化数据提取

当你知道要什么数据,但不知道页面结构时,Extract 更适合。它的工作方式是:先让 AI 分析页面结构,找到目标字段(价格、评分、日期、作者),然后输出结构化的 JSON 或表格。

一个具体场景:你要抓一个技术博客的文章列表,包括标题、发布日期、阅读量。以前你可能要先写一个爬虫脚本,分析 DOM 结构,找到对应的 class 或 XPath,然后调试各种边界情况(分页、懒加载、反爬)。现在你只需要说"把这个博客首页的文章列表提取出来,包含标题、日期和阅读量",Thunderbit 会自己判断字段在哪里,然后输出结构化的数据。

如果你不确定页面有什么字段,它还提供"Suggest fields"功能——免费,让 AI 先分析页面,然后推荐可能有哪些字段供你选择。

Batch(批量)—— 一次搞定 100 个 URL

当你要抓的不是单个页面,而是一批 URL(比如 30 个竞品的产品页),Batch 模式可以一次发起最多 100 个并发任务,按 URL 数量计费。适合竞品调研、市场监控、内容聚合这类需要定期重复的工作。

怎么接入

Thunderbit 最有意思的地方是它的接入方式——它不是另一个要单独打开的网页应用,而是直接融进你现有的开发工具链:

CLI 工具

最轻量的接入方式,适合脚本化使用。你可以在自己的脚本里调用 CLI,把网页数据提取变成管道的一部分:

npm i -g @thunderbit/thunderbit-cli
export THUNDERBIT_API_KEY=your_key_here
thunderbit distill https://example.com -f markdown

MCP Server(模型上下文协议)

MCP 是一种让 AI 工具和外部数据源交互的标准协议。Thunderbit 实现了完整的 MCP Server,注册后提供 7 个工具:

  • thunderbit_distill:提炼页面内容
  • thunderbit_extract:提取结构化数据
  • thunderbit_suggest_fields:AI 推荐字段
  • thunderbit_batch_create、batch_status、batch_results、batch_cancel:批量任务管理

注册到 Claude Desktop 或 Cursor 后,这些工具直接出现在 AI 的工具列表里,你用自然语言就能调用。

Claude Code 插件

如果你用 Claude Code,Thunderbit 还提供了一个更封装的方式:内置 4 个 skills,针对不同场景预定义好的工作流。你不需要理解 MCP 是什么,直接说"帮我抓这个页面"就能用。

这种集成的本质是:Thunderbit 把网页自动化这件事,做成了开发工作流里的一个顺手工具——你能用自然语言指挥它抓什么、怎么整理,而不是学习一门新的 DSL 或者写复杂的配置。

多少钱

Thunderbit 的计费基于 credit 消耗:

操作Credit 消耗
Distill(提炼)1 credit / 次
Extract(提取)20 credits / 次
Suggest fields(字段推荐)免费
Batch(批量)按 URL 数量计费
状态轮询免费

免费额度足够轻度使用——每月有一定量的免费 credit,如果只是偶尔抓几个页面,不需要付费。

适合谁

适合用 Thunderbit 的人:

  • 已经用 Claude Code 或 Cursor 写代码的开发者——不需要切换工具,命令行里直接搞定网页数据
  • 需要定期抓数据的分析师或运营——比如每周抓一次竞品价格、每月整理一批招聘帖
  • 做内容聚合或市场研究的人——需要从多个来源汇总信息,Thunderbit 的 Batch 模式能显著提升效率

不适合用 Thunderbit 的人:

  • 需要抓取有强反爬机制的页面(比如电商平台的动态内容)——它不是为绕过反爬设计的
  • 需要完整数据库级别的爬虫方案——Thunderbit 更适合"顺手抓一下"而不是"建一个长期爬虫系统"
  • 完全不懂代码的人——CLI 和 MCP 的使用还是需要一定的技术背景

技术实现

Thunderbit 的核心是一个 AI Agent,它的工作流程是:接收自然语言指令 → 分析目标网页结构 → 判断数据字段位置 → 输出结构化数据。

这个流程和传统爬虫最大的区别是:传统爬虫依赖固定的 DOM 结构(class、XPath、CSS selector),网页改版就废了;而 Thunderbit 用 AI 理解页面内容,它知道"价格在产品卡片的右侧,通常是 ¥XX 的格式",所以即使网页改版,它也能适应。

它和 Claude Code 通信靠的是 Model Context Protocol(MCP),这也是为什么它能直接装进 Claude Code 的工具列表里——不需要额外的适配层,工具直接出现在 Claude Code 的可用技能中。

总结

Thunderbit 解决的不是"爬虫快不快",而是"爬虫这件事能不能更顺滑地融进开发工作流"。

对于已经用 Claude Code 写代码的人来说,它把网页数据提取变成了一个"顺手的工具"而不是"独立的任务"。你可以直接在正在写的代码旁边加一句"帮我把这个页面的数据抓出来",不需要切换窗口、不需要写正则、不需要维护爬虫脚本。

对于需要频繁抓数据但不是程序员的用户,它的门槛还是有一定的高度——CLI 和 MCP 的使用需要技术背景,但它提供的价值(自动化、自然语言交互)值得学习成本。