Cloudflare 推出爬虫 API:以后抓网站可以不用写爬虫了?

以前抓网站有多痛苦?
你有没有过这种经历?
想做个自己的搜索引擎,结果发现爬虫比写代码还难。人家网站有反爬机制,你得伪装 User-Agent、绕验证码、处理 JavaScript 渲染,稍微不小心就被封 IP。更要命的是,有些网站内容是动态加载的,普通 HTTP 请求根本拿不到。
我之前想给自己的 AI 助手做一个知识库,光是折腾爬虫就花了一个周末。结果呢?代码写了一堆,bug 比功能还多。
就在我快要放弃的时候,Cloudflare 扔给了我一个玩具:/crawl endpoint。
Cloudflare 的爬虫 API 能干啥?
简单说,它让你用一个 API 请求,就能让 Cloudflare 的浏览器帮你把整个网站爬下来。
想象一下:
- 你给外卖平台打电话,说"帮我搞一份宫保鸡丁"
- 平台不会让你自己去菜市场买鸡、去调料店买花生米
- 而是让后厨做好,直接送到你家
/crawl endpoint 就是这个意思。你告诉它"帮我爬下这个网站",它就派一个无头浏览器去访问、渲染、然后把内容整理好给你。
支持的输出格式
这就很贴心了。它支持三种格式:
- HTML - 原始网页内容
- Markdown - 帮你转好的纯文本,复制粘贴就能用
- JSON - 结构化数据,包含标题、链接、内容区块,接入代码更方便
特别是这个 Markdown 格式,简直是给 RAG(检索增强生成)系统量身定制的。你不需要再自己写解析器,拿到手的就是干净的内容。
可配置的范围控制
你可以告诉它:
- 爬多深 - 从首页往下走几层
- 最多爬多少页 - 防止刹不住车
- URL 过滤规则 - 比如只想爬某个子目录
- 自动发现链接 - 会自己从 sitemap 和页面链接里找
这新页面就像点外卖时可以选"不要辣"、“少放盐"一样,完全定制化。
异步处理:不耽误你干活
这个功能是异步的。
你提交一个请求,它返回一个 job ID,然后你就该干啥干啥去。过几分钟再回来拿结果就行。
这设计太合理了。你总不能守着手机等外卖送到吧?
而且它还有个增量爬取的功能:
modifiedSince- 只爬修改过的页面maxAge- 跳过缓存期内的内容
这意味着你不需要每次都从头爬一遍,节省的可不只是时间,还有 Cloudflare 的账单。
还有个省油的模式
如果你要爬的是纯静态网站(没有 JavaScript 动态渲染),可以开"静态模式”。它会跳过浏览器渲染,直接拿 HTML,速度快一倍不止。
这就好比同样是吃饭,你可以选择直接吃盒饭(静态模式),或者让厨师现场炒一个(完整渲染)。看菜下饭嘛。
它守规矩吗?
这可能是大家最关心的:会不会变成一个乱来的爬虫?
答案是:会的,而且很守规矩。
它会尊重网站的 robots.txt 规则,包括 crawl-delay 指令。也就是说,如果网站说"每小时只能来一次",它就真的每小时只来一次。
而且这个功能在 Workers 的免费套餐和付费套餐上都能用,这点挺厚道的。
适合谁用?
官方说的几个场景:
- 训练 AI 模型 - 需要大量网页数据
- RAG 管道开发 - 做知识库需要内容
- 内容监控 - 盯着竞品网站有没有更新
我觉得还可以加几个:
- 个人博客备份
- 做一个小型的站内搜索
- 给小朋友做一个"我的第一个搜索引擎"作业
Cloudflare 爬虫 API 怎么上手?
官方文档在 Cloudflare Developers 上,已经开放公测了。
你只需要:
- 有一个 Cloudflare 账号
- 打开 Browser Rendering 功能
- 调一下 API,就能用
总结
以前觉得爬虫是个技术活,得懂 HTTP、解析 HTML、处理各种反爬。现在 Cloudflare 告诉你:别折腾了,让我来。
一个 API 调过去人家帮你爬、帮你渲染、帮你转格式。这感觉,就像从自己做饭变成了点外卖——虽然后者贵一点,但省下来的时间可以干很多其他的事。
至于能不能完全替代自建爬虫,我觉得得看场景。如果是简单的内容采集,这东西绝对够用;如果要深度定制,那还是得自己动手。
至少头发可以少掉两根。
常见问题
Q: 这个 Cloudflare 爬虫 API 要钱吗? A: 免费套餐和付费套餐都能用,但有额度限制。具体多少官方没明说,建议用之前先查一下文档。
Q: 能爬付费网站吗? A: 理论上能爬到的都能爬,但建议你别这么做。尊重内容创作者的劳动成果是做人的基本素养。
Q: 爬下来的数据能商用吗? A: 这个得看你爬的是什么网站。版权内容商用肯定不行,自己的网站或者开源项目一般来说问题不大。
更新:写完这篇文章才发现,这东西居然还能批量处理批量任务。看来以后真的可以告别 996 写爬虫的日子了。