以前抓网站有多痛苦？

你有没有过这种经历？

想做个自己的搜索引擎，结果发现爬虫比写代码还难。人家网站有反爬机制，你得伪装 User-Agent、绕验证码、处理 JavaScript 渲染，稍微不小心就被封 IP。更要命的是，有些网站内容是动态加载的，普通 HTTP 请求根本拿不到。

我之前想给自己的 AI 助手做一个知识库，光是折腾爬虫就花了一个周末。结果呢？代码写了一堆，bug 比功能还多。

就在我快要放弃的时候，Cloudflare 扔给了我一个玩具：/crawl endpoint。

Cloudflare 的爬虫 API 能干啥？

简单说，它让你用一个 API 请求，就能让 Cloudflare 的浏览器帮你把整个网站爬下来。

想象一下：

你给外卖平台打电话，说"帮我搞一份宫保鸡丁"
平台不会让你自己去菜市场买鸡、去调料店买花生米
而是让后厨做好，直接送到你家

/crawl endpoint 就是这个意思。你告诉它"帮我爬下这个网站"，它就派一个无头浏览器去访问、渲染、然后把内容整理好给你。

支持的输出格式

这就很贴心了。它支持三种格式：

HTML - 原始网页内容
Markdown - 帮你转好的纯文本，复制粘贴就能用
JSON - 结构化数据，包含标题、链接、内容区块，接入代码更方便

特别是这个 Markdown 格式，简直是给 RAG（检索增强生成）系统量身定制的。你不需要再自己写解析器，拿到手的就是干净的内容。

可配置的范围控制

你可以告诉它：

爬多深 - 从首页往下走几层
最多爬多少页 - 防止刹不住车
URL 过滤规则 - 比如只想爬某个子目录
自动发现链接 - 会自己从 sitemap 和页面链接里找

这新页面就像点外卖时可以选"不要辣"、“少放盐"一样，完全定制化。

异步处理：不耽误你干活

这个功能是异步的。

你提交一个请求，它返回一个 job ID，然后你就该干啥干啥去。过几分钟再回来拿结果就行。

这设计太合理了。你总不能守着手机等外卖送到吧？

而且它还有个增量爬取的功能：

modifiedSince - 只爬修改过的页面
maxAge - 跳过缓存期内的内容

这意味着你不需要每次都从头爬一遍，节省的可不只是时间，还有 Cloudflare 的账单。

还有个省油的模式

如果你要爬的是纯静态网站（没有 JavaScript 动态渲染），可以开"静态模式”。它会跳过浏览器渲染，直接拿 HTML，速度快一倍不止。

这就好比同样是吃饭，你可以选择直接吃盒饭（静态模式），或者让厨师现场炒一个（完整渲染）。看菜下饭嘛。

它守规矩吗？

这可能是大家最关心的：会不会变成一个乱来的爬虫？

答案是：会的，而且很守规矩。

它会尊重网站的 robots.txt 规则，包括 crawl-delay 指令。也就是说，如果网站说"每小时只能来一次"，它就真的每小时只来一次。

而且这个功能在 Workers 的免费套餐和付费套餐上都能用，这点挺厚道的。

适合谁用？

官方说的几个场景：

训练 AI 模型 - 需要大量网页数据
RAG 管道开发 - 做知识库需要内容
内容监控 - 盯着竞品网站有没有更新

我觉得还可以加几个：

个人博客备份
做一个小型的站内搜索
给小朋友做一个"我的第一个搜索引擎"作业

Cloudflare 爬虫 API 怎么上手？

官方文档在 Cloudflare Developers 上，已经开放公测了。

你只需要：

有一个 Cloudflare 账号
打开 Browser Rendering 功能
调一下 API，就能用

总结

以前觉得爬虫是个技术活，得懂 HTTP、解析 HTML、处理各种反爬。现在 Cloudflare 告诉你：别折腾了，让我来。

一个 API 调过去人家帮你爬、帮你渲染、帮你转格式。这感觉，就像从自己做饭变成了点外卖——虽然后者贵一点，但省下来的时间可以干很多其他的事。

至于能不能完全替代自建爬虫，我觉得得看场景。如果是简单的内容采集，这东西绝对够用；如果要深度定制，那还是得自己动手。

至少头发可以少掉两根。

常见问题

Q: 这个 Cloudflare 爬虫 API 要钱吗？ A: 免费套餐和付费套餐都能用，但有额度限制。具体多少官方没明说，建议用之前先查一下文档。

Q: 能爬付费网站吗？ A: 理论上能爬到的都能爬，但建议你别这么做。尊重内容创作者的劳动成果是做人的基本素养。

Q: 爬下来的数据能商用吗？ A: 这个得看你爬的是什么网站。版权内容商用肯定不行，自己的网站或者开源项目一般来说问题不大。

更新：写完这篇文章才发现，这东西居然还能批量处理批量任务。看来以后真的可以告别 996 写爬虫的日子了。

以前抓网站有多痛苦？#

Cloudflare 的爬虫 API 能干啥？#

支持的输出格式#

可配置的范围控制#

异步处理：不耽误你干活#

还有个省油的模式#

它守规矩吗？#

适合谁用？#

Cloudflare 爬虫 API 怎么上手？#

总结#

常见问题#