项目地址:firecrawl/firecrawl | ⭐ 117,364 Stars | 🛠 TypeScript
做 RAG 应用或者 AI Agent 的时候,最头疼的是什么?不是模型不够强,是——数据喂不进去。你要爬个网站,要么被反爬拦截,要么拿到一堆乱糟糟的 HTML,还得自己写 parser 清理。Firecrawl 就是来解决这个问题的:一个给你 AI 项目喂干净网页数据的 API,支持搜索、爬取、交互、全站抓取,一行代码就能拿到 LLM-ready 的 markdown。
📊 项目数据
- ⭐ 117,364 Stars — GitHub 社区的认可
- 🍴 7,000+ Forks
- 🛠 主要语言:TypeScript
- 👤 作者/团队:firecrawl
- 📜 协议:MIT
- 🌐 覆盖率:96% 的网页,包括 JS 渲染页面
- ⚡ P95 延迟:3.4 秒(百万级页面基准)
🧩 核心功能拆解
🔥 Scrape — 单页抓取
给一个 URL,返回干净 markdown / JSON / 截图。支持 JS 渲染、PDF/DOCX 解析。
🔍 Search — 搜索 + 内容
不只是返回搜索结果链接,直接把每个结果页面的完整内容抓回来,LLM 直接消费。
🕷️ Crawl — 全站抓取
一个请求爬完整站,自动排队、去重、限速,返回所有页面的结构化内容。
🤖 Agent — 自主数据收集
描述你需要什么,AI agent 自动搜索、导航、提取。支持结构化输出(Pydantic schema)。
🖱️ Interact — 页面交互
抓取后对页面执行点击、输入、滚动等操作,适合电商比价、表单填写等场景。
🗺️ Map — 站点地图
瞬间发现网站所有 URL,支持关键词搜索过滤。
🔌 MCP 集成
一行命令接入任何 MCP 客户端,Claude Code、OpenCode 等直接调用 Firecrawl。
💻 实操上手
安装
pip install firecrawl-py
搜索网页(最常用)
from firecrawl import Firecrawl
app = Firecrawl(api_key="fc-YOUR_API_KEY")
search_result = app.search("latest AI news 2026", limit=5)
for result in search_result:
print(result.title)
print(result.markdown[:200])
抓取单页
from firecrawl import Firecrawl
app = Firecrawl(api_key="fc-YOUR_API_KEY")
doc = app.scrape("https://example.com", formats=["markdown"])
print(doc.markdown)
全站爬取
from firecrawl import Firecrawl
app = Firecrawl(api_key="fc-YOUR_API_KEY")
docs = app.crawl("https://docs.example.com", limit=50)
for doc in docs.data:
print(doc.metadata.source_url)
Agent 自主提取
from firecrawl import Firecrawl
from pydantic import BaseModel, Field
from typing import List
class PricingPlan(BaseModel):
name: str = Field(description="Plan name")
price: str = Field(description="Monthly price")
app = Firecrawl(api_key="fc-YOUR_API_KEY")
result = app.agent(
prompt="Find all pricing plans for Notion",
schema=PricingPlan
)
print(result.data)
MCP 接入 AI Agent
# 在 Claude Code / Cursor 的 MCP 配置中添加:
{
"mcpServers": {
"firecrawl-mcp": {
"command": "npx",
"args": ["-y", "firecrawl-mcp"],
"env": {
"FIRECRAWL_API_KEY": "fc-YOUR_API_KEY"
}
}
}
}
🔍 深度对比:Firecrawl vs 同类工具
市面上做网页数据提取的不少,但 Firecrawl 有几个独特优势:
- 全栈覆盖:Search → Scrape → Crawl → Agent → Interact,一个 API 搞定所有场景,而 Jina Reader 只能搜、Scrapy 只能爬
- AI 原生:输出就是 markdown / JSON,不是给你 HTML 让你自己 parse。内置 Agent 模式直接结构化提取
- 前端渲染:Puppeteer 内置,96% 的网页覆盖率,Selenium/Playwright 自己搭?省了
- MCP 原生:一行命令接入 AI Agent 生态,Claude Code 直接调用,这是其他爬虫工具没有的
- 开源可自部署:隐私敏感场景可以自己 host,不像 Jina Reader 或 Apify 只能走云端
不足之处:免费额度有限(每月 500 credits),大规模抓取需要付费。Python SDK 功能完整但文档还在完善中。
📌 要点总结
- Firecrawl 是目前最 AI-native 的网页数据提取 API,117k Stars 名副其实
- Search + Scrape + Crawl + Agent + Interact 五合一,一个 API 解决所有数据摄入场景
- MCP 支持让你直接把网页能力注入 AI Agent,一行命令搞定
- 开源 MIT 协议,可自部署,适合隐私敏感场景
- 适合人群:做 RAG、AI Agent、数据采集、竞品分析的开发者
Repo: firecrawl/firecrawl | ⭐ 117,364 Stars | 🛠 TypeScript
Firecrawl is the API to search, scrape, and interact with the web for AI. It turns any website into LLM-ready markdown, JSON, or screenshots with a single call — handling proxies, rate limits, JS rendering, and all the hard stuff so you don't have to.
Core Features:
- 🔥 Scrape — Convert any URL to clean markdown/JSON/screenshots
- 🔍 Search — Search the web and get full page content from results
- 🕷️ Crawl — Crawl entire websites with a single request
- 🤖 Agent — Autonomous data gathering with structured output (Pydantic schemas)
- 🖱️ Interact — Click, scroll, type, and extract content dynamically
- 🗺️ Map — Discover all URLs on a site instantly
- 🔌 MCP — Native MCP support for Claude Code, Cursor, and any MCP client
Key Stats: ⭐ 117K+ Stars · 96% web coverage · P95 latency 3.4s · MIT License
Quick Start:
pip install firecrawl-py
from firecrawl import Firecrawl
app = Firecrawl(api_key="fc-YOUR_API_KEY")
doc = app.scrape("https://example.com", formats=["markdown"])
print(doc.markdown)