Crawl4AI - LLM 友好的异步爬虫工具

Crawl4AI - LLM 友好的异步爬虫工具

2024-12-26 14:49

Crawl4AI 是一款开源 LLM 有好的网络爬虫，Crawl4AI 简化了异步Web抓取和数据提取，使其可用于大型语言模型（LLM）和AI应用程序。🆓🌐

同步版：查看README.sync.md。您还可以在分支V0.2.76中访问以前的版本。

github : https://github.com/unclecode/crawl4ai
试用 Colab ：https://colab.research.google.com/drive/1REChY6fXQf-EaVYLv0eHEWvzlYxGm0pd
官方文档：https://crawl4ai.com/mkdocs/
贡献指南 | 许可 | 推特：@unclecode

Crawl4AI提供灵活的安装选项以适应各种用例。您可以将其安装为Python包或使用Docker。

选择最适合您需求的安装选项：

对于基本的网络抓取和抓取任务：

默认情况下，这将安装Crawl4AI的异步版本，使用Playwright进行网络抓取。

👉注意：安装Crawl4AI时，安装脚本应自动安装并设置Playwright。但是，如果您遇到任何与Playwright相关的错误，您可以使用以下方法之一手动安装它：

1、通过命令行：

2、如果上述方法不起作用，请尝试以下更具体的命令：

第二种方法在某些情况下被证明更可靠。

如果您需要使用Selenium的同步版本：

对于计划修改源代码的贡献者：

我们正在创建Docker映像并将它们推送到Docker Hub。这将提供一种在容器化环境中运行Crawl4AI的简单方法。敬请关注更新！

有关更详细的安装说明和选项，请参阅我们的安装指南。

该允许使用CSS选择器从网页中精确提取结构化数据。

有关更高级的使用示例，请查看文档中的示例部分。

Crawl4AI擅长处理复杂的场景，例如使用通过JavaScript加载的动态内容抓取多个页面。这是跨多个页面抓取GitHub提交的示例：

此示例演示了Crawl4AI处理异步加载内容的复杂场景的能力。它抓取多个GitHub提交页面，执行JavaScript加载新内容，并使用自定义挂钩确保在继续之前加载数据。

有关更高级的使用示例，请查看文档中的示例部分。

Crawl4AI的设计以速度为主要关注点。我们的目标是通过高质量的数据提取提供尽可能快的响应，最大限度地减少数据和用户之间的抽象。

我们对Crawl4AI和付费服务Firecrawl进行了速度比较。结果证明了Crawl4AI的卓越性能：

如您所见，Crawl4AI的性能明显优于Firecrawl：

您可以在我们的存储库中找到完整的比较代码。