🔥 Firecrawl:119k Stars 的 AI 网页数据 API,一个接口搞定全网爬取
项目地址:https://github.com/firecrawl/firecrawl | ⭐ 119,845 Stars | 🛠 TypeScript | 作者:firecrawl
老实说,给 AI Agent 喂网页数据这事儿,我已经被整麻了。你用 Requests 爬?JS 渲染的页面直接白板。用 Puppeteer?部署起来能写三页配置。搞代理池?别问,问就是踩坑经验。
Firecrawl 就是干这个的——一个 API 解决网页搜索、爬取、交互全部需求。拿了 119k Stars,不是没道理的。
一、它能干嘛?
🔥 Scrape:把任意 URL 转成 Markdown / JSON / 截图,JS 重页面也不怵
🔍 Search:搜索网页,顺便把你搜索结果页的完整内容扒下来
🎯 Interact:爬完页面还能交互——点击、滚动、输入,一套操作打满
🤖 Agent:不用给 URL,描述你要啥,它自己搜、自己看、自己给你结果
⚡ Crawl:一个请求爬整个网站,自动翻页
🗺 Map:秒级发现网站所有 URL
二、上手
Firecrawl 有云服务(去 firecrawl.dev 注册拿 key),也能自己搭。最骚的是它支持 MCP,一行配置就能给你的 Claude Code 装上全网感知能力。
# 注册拿 API Key 之后,搜个东西
curl -X POST 'https://api.firecrawl.dev/v2/search' \
-H 'Authorization: Bearer fc-YOUR_API_KEY' \
-H 'Content-Type: application/json' \
-d '{"query": "firecrawl", "limit": 5}'
返回直接是 Markdown 格式的内容,LLM 直接吃掉,不用再自己转。
from firecrawl import Firecrawl
app = Firecrawl(api_key="fc-YOUR_API_KEY")
# 爬一页,直接出 Markdown
result = app.scrape('firecrawl.dev')
# 或者搜
search_result = app.search("firecrawl", limit=5)
三、Agent 模式和结构化提取
这才是真正的杀手锏。你告诉它要什么,它自己去全网搜:
curl -X POST 'https://api.firecrawl.dev/v2/agent' \
-H 'Authorization: Bearer fc-YOUR_API_KEY' \
-H 'Content-Type: application/json' \
-d '{"prompt": "Find the pricing plans for Notion"}'
还能带 Schema 出结构化数据:
from firecrawl import Firecrawl
from pydantic import BaseModel, Field
app = Firecrawl(api_key="fc-YOUR_API_KEY")
class FoundersSchema(BaseModel):
founders: list[dict] = Field(description="List of founders")
result = app.agent(
prompt="Find the founders of Firecrawl",
schema=FoundersSchema
)
四、给你的 Agent 装上
Firecrawl 提供 MCP Server,一行配置让你的 AI Coding Agent 能直接查网页:
{
"mcpServers": {
"firecrawl-mcp": {
"command": "npx",
"args": ["-y", "firecrawl-mcp"],
"env": {
"FIRECRAWL_API_KEY": "fc-YOUR_API_KEY"
}
}
}
}
或者直接用 CLI 装技能包:
npx -y firecrawl-cli@latest init --all --browser
重启你的 Claude Code / OpenCode,直接说"帮我去网上查一下 X"就行。
五、踩坑总结
老实说,Firecrawl 的定位很清楚——给你 AI Agent 装一个"看得见网页的眼睛"。别自己折腾爬虫框架了,一个 API 全搞定。
标签:#AI #WebScraping #MCP #Agent #LLM