分享好友 最新动态首页 最新动态分类 切换频道
Crawl4AI - LLM 友好的异步爬虫工具
2024-12-26 14:49

Crawl4AI - LLM 友好的异步爬虫工具


Crawl4AI 是一款开源 LLM 有好的网络爬虫,Crawl4AI 简化了异步Web抓取和数据提取,使其可用于大型语言模型(LLM)和AI应用程序。🆓🌐

同步版:查看README.sync.md。您还可以在分支V0.2.76中访问以前的版本。


  • github : https://github.com/unclecode/crawl4ai
  • 试用 Colab :https://colab.research.google.com/drive/1REChY6fXQf-EaVYLv0eHEWvzlYxGm0pd
  • 官方文档:https://crawl4ai.com/mkdocs/
  • 贡献指南 | 许可 | 推特@unclecode

特点✨

  • 🆓完全免费和开源
  • 🚀超快的性能,优于许多付费服务
  • 🤖LLM友好的输出格式(JSON,清理 HTML ,降价
  • 🌍支持同时抓取多个URL
  • 🎨提取并返回所有媒体标签(图像、音频和视频
  • 🔗提取所有外部和内部链接
  • 📚从页面中提取元数据
  • 🔄抓取前用于身份验证、标题和页面修改的自定义挂钩
  • 🕵️用户代理定制
  • 🖼️页面截图
  • 📜抓取前执行多个自定义JavaScript
  • 📊生成结构化输出没有LLM使用JsonCssExtractionStrategy
  • 📚各种组块策略:基于主题、正则表达式、句子等
  • 🧠高级提取策略:余弦聚类、LLM等
  • 🎯CSS选择器支持精确的数据提取
  • 📝传递指令/关键字来细化提取
  • 🔒代理支持增强隐私和访问
  • 🔄复杂多页面抓取场景的会话管理
  • 🌐异步架构,以提高性能和可扩展性

Crawl4AI提供灵活的安装选项以适应各种用例。您可以将其安装为Python包或使用Docker。


1、使用pip🐍

选择最适合您需求的安装选项


1.1 基本安装

对于基本的网络抓取和抓取任务

 

默认情况下,这将安装Crawl4AI的异步版本,使用Playwright进行网络抓取。

👉注意:安装Crawl4AI时,安装脚本应自动安装并设置Playwright。但是,如果您遇到任何与Playwright相关的错误,您可以使用以下方法之一手动安装它

1、通过命令行

 

2、如果上述方法不起作用,请尝试以下更具体的命令

 

第二种方法在某些情况下被证明更可靠。


1.2 使用同步版本安装

如果您需要使用Selenium的同步版本

 

1.3 开发安装

对于计划修改源代码的贡献者

 

2、使用Docker🐳

我们正在创建Docker映像并将它们推送到Docker Hub。这将提供一种在容器化环境中运行Crawl4AI的简单方法。敬请关注更新

有关更详细的安装说明和选项,请参阅我们的安装指南。


 


1、执行JavaScript和使用CSS选择器

 

2、使用代理

 

3、在没有LLM的情况下提取结构化数据

该允许使用CSS选择器从网页中精确提取结构化数据。

 

有关更高级的使用示例,请查看文档中的示例部分。


4、使用OpenAI提取结构化数据

 

5、会话管理和动态内容爬行

Crawl4AI擅长处理复杂的场景,例如使用通过JavaScript加载的动态内容抓取多个页面。这是跨多个页面抓取GitHub提交的示例

 

此示例演示了Crawl4AI处理异步加载内容的复杂场景的能力。它抓取多个GitHub提交页面,执行JavaScript加载新内容,并使用自定义挂钩确保在继续之前加载数据。

有关更高级的使用示例,请查看文档中的示例部分。


Crawl4AI的设计以速度为主要关注点。我们的目标是通过高质量的数据提取提供尽可能快的响应,最大限度地减少数据和用户之间的抽象。

我们对Crawl4AI和付费服务Firecrawl进行了速度比较。结果证明了Crawl4AI的卓越性能

 

如您所见,Crawl4AI的性能明显优于Firecrawl

  • 简单爬行:Crawl4AI比Firecrawl快4倍以上。
  • 使用JavaScript执行:即使执行JavaScript以加载更多内容(将找到的图像数量增加一倍,Crawl4AI仍然比Firecrawl的简单抓取更快。

您可以在我们的存储库中找到完整的比较代码。


最新文章
36漫画免广告版2024免费正版下载安装
36漫画免广告是一款主打漫画和小说的阅读工具,支持各种平台的付费内容阅读,在36漫画这里都是免费使用的,资源丰富。这个软件把小说和漫画聚合在一起了,非常完美!36漫画免广告软件无广告、无付费、无需注册登录即可畅享所有资源,各种漫
GPT每天消耗50000升水,电和水是 AI 两大能源需求
随着ChatGPT引发新一轮人工智能(AI)热潮,而其背后带来的能耗问题也持续引发关注。今年4月10日,芯片巨头 Arm公司CEO哈斯(Rene Haas)公开表示,包括ChatGPT在内的 AI 大模型需要大量算力,预计到2030年,AI 数据中心将消耗美国20%至25%
2017年最新15个漂亮的 HTML 摄影网站模板
  摄影是一门艺术,它需要大量的耐心和努力工作来捕捉那些精彩的瞬间。如果你是一位热情的摄影师,想要建立一个网站来展示那些高质量的摄影作品,那么你找对地方了。本文包含15个最佳的摄影网站模板,你可以使用这些 HTML 模板创建自己的
AI绘画神器:轻松生成超逼真美女写真,探索一键制图的全新体验!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数字化快速发展的时代,越来越多的人开始追求个性化的艺术创作。你是否曾梦想过拥有一
10. git rebase 变基
Git下载地址官方书籍Pro gitGit开发故事练习git的 Git is a free and open source distributed version control system designed to handle everything from small to very large projects with speed and efficiency.Git是一个免费开源的
2024年中国AI大模型产业发展报告:开启智能新时代
中国AI大模型产业已经形成了以云侧和端侧为主的两大部署方式。云侧大模型包括通用大模型和行业大模型,而端侧大模型则涵盖了手机大模型和PC大模型。各类大模型在金融、医疗、政务等领域都取得了显著成果,成为提升服务质量和效率的重要手段
2024年332期[赚它一个亿]排列五双胆推荐26
排列五上期形态统计:大小形态为大小小小大,大小比为2:3,012路比为: 0:3:2,奇偶形态为奇奇偶偶奇,质合形态为质质质质质,质合比为:5:0,和值为19点,和尾为9点,跨度为6。最大号:7,最小号:1体彩排列五走势图表体彩排列五第24332期综合分析
AI时代,创造力将被我们置于何处
  王思媛|杨浦高级中学 高三(11)班 指导老师|李琳  自从2022年11月30日,ChatGPT正式发布,人类已经一只脚踏入AI的时代。在智能聊天机器人蒸蒸日上的同时,AI创作也在不断更新。在这短短的两年内,人们对此展开了多层次的讨论,主
5d影院轨道设备
5D影院是一种结合了3D电影、动感座椅和特殊效果的娱乐设备,给观众提供了一种更加身临其境的观影体验。在传统的电影院中,观众只能通过观看屏幕来感受电影的情节和氛围,但是在5D影院中,观众不仅可以看到画面,还可以通过座椅的晃动、风、
相关文章
推荐文章
发表评论
0评