分享好友 最新动态首页 最新动态分类 切换频道
使用Python爬取小红书笔记与评论(仅供学习参考)
2024-11-06 04:18

🏠作者主页】吴秋霖
💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作
🌟作者推荐】:对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》
未来作者会持续更新所用到、学到、看到的技术知识!包括但不限于:各类验证码突防、爬虫APP与JS逆向分析、RPA自动化、分布式爬虫、Python领域等相关文章

使用Python爬取小红书笔记与评论(仅供学习参考)

作者声明:文章仅供学习交流与参考!严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者无关!如有侵权,请联系作者本人进行删除

  目前很多小伙伴可能或多或少都需要一些基础的笔记或者评论数据进行分析!有的可能想要通过一些关键词进行搜索,获取一些精准领域的笔记内容。有的则希望监测某篇笔记下面新增的评论内容。从技术角度来说,在作者之前的文章中我们除了通过对x-s、x-s-common参数进行逆向分析还原外,还可以通过JS注入免扣加密算法的RPC方案去提取获取到加密参数,再通过协议请求获取数据

但是,不管哪一种方案对于没有爬虫以及编程经验的人来说无疑是有一定难度与门槛的

所以,在此前的一段时间内。作者也是尝试并封装了一些API进行过测试,比如

  • 关键词搜索
  • 笔记获取
  • 评论获取
  • 旋转滑块验证码

如果你是一名开发者且有爬虫相关的经验!可以去看看作者之前的文章,相关参数加密分析及完整的一些算法及密钥信息以及如何定位都在这篇文章:x-s、x-s-common加密纯算法还原(2024-9-1更新

RPC跟注入怎么进行?当然需要先找到加密入口,可以看到上图断点处l包含x-s跟x-t的返回,那么加密操作就在上面完成。看下面这行代码

window._webmsxyw函数内即加密逻辑,在自执行函数内部并添加在了window属性中

该函数接受两个参数,s是api接口的路径,i是请求提交的参数

这是一种实现思路,提供大家进行参考!相对于纯自动化效率肯定要好,具体方案可以考虑使用Playwright或者pyppeteer实现,通过浏览器的Javascript注入来获取到加密参数,实现方案Demo分别如下所示

  • Playwright实现示例
  • pyppeteer实现示例

上面的stealth.min.js脚本是一位大佬开源的!注入的作用是为了防止被检测,另外CK参数需要设置属性来避免Web端出现滑动验证码

当然,这个都是最终工程化需要考虑的事情,这里主要还是通过非逆向分析的方式去解决加密参数问题

window.localStorage在之前加密分析的文章中已经详细介绍了localStorage是一个在浏览器中存储键值对的API,通常用于持久化地存储数据,所需的b1参数就在其中

x-s跟x-t的加密参数通过注入的方式能够直接拿到,但是x-s-common的参数仍需要通过加密算法生成!但是这个参数目前适用的并不多,仍然以x-s参数检测为主

Python版本的sign加密算法在之前的加密分析文章中已分享!注入的方式主要为了获取到这些个参数x-s、x-t、b1

JS注入的方式对于有前端基础及经验的小伙伴,就很简单了。通过上面的方式获取到所有的加密参数后,接下来就是爬虫的工程化下图是feed接口

以笔记搜索为例,下面对数据的抓取的示例是采用的协议(非浏览器自动化或注入)的方式。需要注意一下search_id是动态生成的!完整的爬虫代码实现如下所示

最后,如果没有编程与爬虫经验的小伙伴!有研究、学习的需求也可以找作者领取开箱即用的完整项目源码进行学习!当然大家有兴趣的也可以根据文章所提供分享的思路自己进行研究与实现,没有太大难度!可以找作者给予必要的技术指导

关于数据的获取,像笔记关键词搜索出来的所有笔记内容在抓取完成后均会自动存储到本地的Excel文件内,如下所示

笔记所对应的所有评论内容在抓取完成后同样也会存储在本地的Excel文件内,如下所示

获取只需要笔记下面所有的全量一级、二级评论内容,可以直接去指定笔记ID然后获取,如下所示

最新文章
微信跳转抖音链接生成步骤,在线免费创建
市场营销获客工具【爱短链】全域跳转工具,打通私域引流关键一步:轻松将公域流量,引导至私域,通过链接点击直达,方便快捷,无风险提示跳转,助力企业/商家高速获客》》点此生成链接
Desk平台设计_今日desk设计教程
摘要:Desk平台设计,今日desk设计教程,新片场素材小编谈梓Desk平台设计,今日desk设计教程相关内容整理,如果您对Desk平台设计,今日desk设计教程感兴趣欢迎访问免费阅读。Desk平台设计,今日desk设计教程一、Desk平台在线设计教程介绍Udesk
新股速递 | 360金融,互联网巨头旗下金融科技公司上市第一股
本文由“华盛证券”供稿,文中观点不代表智通财经观点。360金融是由360金服(北京奇步天下科技有限公司运营的集团)孵化,成立于2016年7月,并于2018年9月拆分独立运营发展,自成立到赴美上市,时间不足三年。根据招股书,从放款额算,360
WordPress后台上传文件大小受限制解除方法
WordPress后台上传文件大小受限制解除方法最近刚录了一个外贸photoshop教程一,录制后想把视频上传到网站,然后就遇到了一个问题,就是视频太大,后台无法上传。wordpress后台默认支持上传文件的大小是50M, 但我录制的视频教程经压缩后还
华为云数智融合平台支撑MetaERP计划引擎更智能更实时
计划引擎是ERP系统中计划组件的大脑,要能根据实时的供需数据运算得出精准的计划指令。华为的供应链覆盖了数万种采购物料,每年交易额超过千亿,物料清单层级高达十层,约束条件和场景多达上百个。每次计划引擎的输入量都达到千万级,需要
SEO神器揭秘,提升网站排名的优化技术软件解析
《揭秘SEO排名技术软件:高效提升网站搜索引擎优化》一文深入解析了SEO排名技术软件的原理与功能,介绍如何利用该利器助力网站在搜索引擎中实现快速排名,显著提高SEO优化效率。随着互联网的飞速发展,搜索引擎优化(SEO)已经成为企业网站
免费seo优化诊断推广(免费seo推广计划)
大家好,今天小编关注到一个比较有意思的话题,就是关于免费seo优化诊断推广的问题,于是小编就整理了5个相关介绍免费seo优化诊断推广的解答,让我们一起看看吧。seo优化推广多少钱?什么叫seo优化?做百度推广SEO优化赚钱吗,利润可观吗?
LOL-2021季中赛RNG夺冠荣耀头像领取网址大揭秘:独家分享-庆祝胜利荣耀时刻
在电子竞技的浩瀚星空中,有一支队伍如流星划过,带来了耀眼的荣光。他们就是英雄联盟(League of Legends,简称LOL)赛场上的巨擘——RNG战队。当2021季中赛的胜利属于他们时,无数的粉丝为之欢腾,为这支队伍的荣耀时刻献上最热烈的掌声
天猫母婴店铺开通需要什么条件?母婴类目入驻天猫有哪些要求?
新亲子互动交易时代的来临,针对母婴电商而言即是机会,都是考验,依据大数据显示少年儿童群体规模在过去十年展现增长势头,经济发展水平的不断提高推动儿童经济销售市场非常大的市场潜力。那样天猫母婴类店面如何开通呢?天猫数据表明,婴
为什么SEO优化应该与独立站的营销战略紧密结合?提升网站流量与品牌曝
- SEO优化能够提升独立站的自然流量,增强品牌曝光度。SEO优化是提升独立站自然流量和增强品牌曝光度的重要手段之一。首先,SEO优化能够通过提高网站在搜索引擎结果页面(SERP)中的排名,吸引更多的潜在客户。当用户在搜索引擎中输入与品
相关文章
推荐文章
发表评论
0评