欣淇
发布于 2026-05-15 / 0 阅读
0
0

🔥 Firecrawl:119k Stars 的 AI 网页数据 API,一个接口搞定全网爬取

🔥 Firecrawl:119k Stars 的 AI 网页数据 API,一个接口搞定全网爬取

项目地址:https://github.com/firecrawl/firecrawl | ⭐ 119,845 Stars | 🛠 TypeScript | 作者:firecrawl

老实说,给 AI Agent 喂网页数据这事儿,我已经被整麻了。你用 Requests 爬?JS 渲染的页面直接白板。用 Puppeteer?部署起来能写三页配置。搞代理池?别问,问就是踩坑经验。

Firecrawl 就是干这个的——一个 API 解决网页搜索、爬取、交互全部需求。拿了 119k Stars,不是没道理的。

一、它能干嘛?

🔥 Scrape:把任意 URL 转成 Markdown / JSON / 截图,JS 重页面也不怵

🔍 Search:搜索网页,顺便把你搜索结果页的完整内容扒下来

🎯 Interact:爬完页面还能交互——点击、滚动、输入,一套操作打满

🤖 Agent:不用给 URL,描述你要啥,它自己搜、自己看、自己给你结果

Crawl:一个请求爬整个网站,自动翻页

🗺 Map:秒级发现网站所有 URL

二、上手

Firecrawl 有云服务(去 firecrawl.dev 注册拿 key),也能自己搭。最骚的是它支持 MCP,一行配置就能给你的 Claude Code 装上全网感知能力。

# 注册拿 API Key 之后,搜个东西
curl -X POST 'https://api.firecrawl.dev/v2/search' \
  -H 'Authorization: Bearer fc-YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{"query": "firecrawl", "limit": 5}'

返回直接是 Markdown 格式的内容,LLM 直接吃掉,不用再自己转。

from firecrawl import Firecrawl

app = Firecrawl(api_key="fc-YOUR_API_KEY")

# 爬一页,直接出 Markdown
result = app.scrape('firecrawl.dev')

# 或者搜
search_result = app.search("firecrawl", limit=5)

三、Agent 模式和结构化提取

这才是真正的杀手锏。你告诉它要什么,它自己去全网搜:

curl -X POST 'https://api.firecrawl.dev/v2/agent' \
  -H 'Authorization: Bearer fc-YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{"prompt": "Find the pricing plans for Notion"}'

还能带 Schema 出结构化数据:

from firecrawl import Firecrawl
from pydantic import BaseModel, Field

app = Firecrawl(api_key="fc-YOUR_API_KEY")

class FoundersSchema(BaseModel):
    founders: list[dict] = Field(description="List of founders")

result = app.agent(
    prompt="Find the founders of Firecrawl",
    schema=FoundersSchema
)

四、给你的 Agent 装上

Firecrawl 提供 MCP Server,一行配置让你的 AI Coding Agent 能直接查网页:

{
  "mcpServers": {
    "firecrawl-mcp": {
      "command": "npx",
      "args": ["-y", "firecrawl-mcp"],
      "env": {
        "FIRECRAWL_API_KEY": "fc-YOUR_API_KEY"
      }
    }
  }
}

或者直接用 CLI 装技能包:

npx -y firecrawl-cli@latest init --all --browser

重启你的 Claude Code / OpenCode,直接说"帮我去网上查一下 X"就行。

五、踩坑总结

  • 免费版有限额,重度用户建议自建开源版或买付费套餐
  • Agent 模式的 spark-1-mini 模型性价比高,复杂任务切 spark-1-pro
  • 爬国内站点速度一般,毕竟服务器在海外
  • P95 延迟 3.4s,实时场景够用,但不适合毫秒级调用
  • 老实说,Firecrawl 的定位很清楚——给你 AI Agent 装一个"看得见网页的眼睛"。别自己折腾爬虫框架了,一个 API 全搞定。

    标签:#AI #WebScraping #MCP #Agent #LLM


    评论