分享好友 最新动态首页 最新动态分类 切换频道
如此“爬虫”?代码全省了
2024-12-28 23:36

大家好,我是章北海

Jina AI 开源了 RAG 数据处理中的关键组件:“网页数据爬取” ——Reader,目前 3300+ Star⭐️

项目地址:https://github.com/jina-ai/reader

Jina AI Reader 特征:

  1. 免费使用

  2. 开源

  3. 延迟大概 2S 内,复杂的内容可能需要更多时间

  4. 提供 stream 模式,方便缓解复杂内容等待

  5. 不支持多语

  6. 能够处理 PDF 如 arXiv,但是不是一个通用的 PDF 抽取器

  7. 未来会支持处理图片或视频总结

  8. 支持在线网页

  9. 5 分钟之内上传的内容会缓存

说它是爬取其实有点“过”了,因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式(比如 markdown),然后可以再针对这些内容集成不同的模型。

它可以免费使用,提供 Stream 模式可流式读内容(简单内容2s内可获取)

也可以访问 https://jina.ai/reader/,尝试在线 Demo。

填入链接,点击 FETCH CONTENT 即可获取到内容,甚至提供了基于获取的内容直接提问,结合 Jina AI 的 Embedding 召回 + LLM 组合输出。

Jina AI Reader 原理是通过 puppeteer 抓取网页内容,然后解析再保存成 markdown,这样的方法对于抓取静态的网页内容还可以,如果抓取更复杂的页面就无能为力,还是需要更专业的爬虫解析工具。

其实抓取url,将正文转换为良好的markdown格式的工具还有很多,比如:

  • https://markdowndown.vercel.app

  • web-scraper(open source): https://github.com/zzzgydi/webscraper

  • code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown (偏向于更好地处理代码块)

最新文章
设计思路教程!如何使用AI软件中的布尔运算设计LOGO?
作者:黑狮力(授权转载)交作业:之前有很多人问我能不能出一篇关于布尔运算的详细文章或视频,因为工作原因一拖再拖,自己想了想躲得过初一躲不过十五,最终我还是利用一周,好好的理了一下思路出一篇文章。为何用那么久去理思路?是因为
谷歌google推广的基本步骤有哪些?
谷歌google推广的基本步骤有哪些?首先我们要知道何种产品适合谷歌推广:1)工业品:一般外商都是通过搜索产品关键词进来的,而谷歌占据了海外九成搜索流量,因此肯定是适合的。2)民用品:谷歌推广同样重要,只是我们还需要进入FB,INS等社
OA办公APP系统开发,OA办公开发搭建
OA办公APP系统开发,OA办公开发搭建,OA办公项目案例,OA办公开发成本,OA办公现成案例,OA办公源码搭建开发时间,OA办公系统开发,OA办公软件开发,OA办公开发需求,OA办公平台制作过程,OA办公制度模式搭建开发,OA办公电商平台开发,OA
许昌哈弗H5降价来袭,优惠1万!优惠不等人
【汽车之家许昌优惠促销频道】近日,许昌地区的正在进行大幅度优惠活动,最高优惠额度达到了1万元。目前,哈弗H5的最低起售价已经降至11.28万元,这一价格吸引了众多消费者的关注。如果您正在考虑购买哈弗H5,不妨点击报价表格中的“查提车
成品网站 W灬源码杏花:功能强大的网站建设工具
成品网站 W灬源码杏花是一款功能强大的网站建设工具,它提供了丰富的模板和功能,让用户可以轻松地创建出专业、美观的网站。如果你想了解更多关于成品网站 W灬源码杏花的信息,或者有任何疑问,欢迎随时联系我们。成品网站 W灬源码杏花的特
星空北域沉默无限刀专属传奇版本[新GOM引擎]
1、GM之家会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全!2、GM之家无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别;3、在源码同时有网站演示与图片演示,且
《自动剧本生成器免费版》软件特色:
自动剧本生成器免费版当中所有的功能用户都是可以免费进行使用的,这款软件允许用户根据个人喜好选择生成不同类型的故事情节,包括爱情、奇幻等不同类型。用户只需选择相应的模式和指定文字数量,软件即可自动生成完全原创的内容,是一个非
网站建设中要提升排名需要了解的5点搜索优化原则
  搜索引擎排名(SERP),如你所知,代表着在各大搜索引擎中搜索特定的关键字时,你的b网站在搜索结果中的位置。排名越靠前,你就越有可能获得更大的流量,也越有可能盈利。更重要的是,搜索排名会带给你持续稳定的流量,而不像社会化书
爬虫篇——采集单机游戏(网页游戏),爬取小游戏
好的,我可以为您提供爬虫教程,以下是使用Scrapy框架爬取豆瓣电影TOP250的步骤:1. 创建Scrapy项目首先需要使用Scrapy命令行工具创建一个Scrapy项目,可以使用以下命令:```scrapy startproject douban_top250```该命令将会在当前目录下创
相关文章
推荐文章
发表评论
0评