分享好友 最新动态首页 最新动态分类 切换频道
爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)
2024-11-07 23:08

爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)

前天接一个爬取淘宝商家(自行车)信息的请求,要求数据按照其销售量排行。

完成该请求后,爬取数据(李宁卫衣)如下在这里插入图片描述

接下来看如何实现的

首先打开淘宝网:https://www.taobao.com/,在搜索栏输入自行车,结果发现页面转跳到https://login.taobao.com/member/login.jhtml 淘宝登录页面,要求登录才能进行关键字搜索获取数据。(需要登录的时候应当想到cookies

cookies 及其用处: 当我们登录某网站时,服务器会生成一个cookies,包含有用户登录等信息,与当前账号绑定,浏览器将此cookies存储到。下一次,浏览器带着cookies访问网站,就不需要在输入账号密码。注意cookies是有时效性的。

所以,目标明确,第一步,获取用户登录的cookies

需要登录淘宝页面获取cookies,才能执行后续操作。而模拟登录有两种方法

  • 搞清淘宝登录机制,修改参数登录。(借鉴裸睡的猪 猪哥的文章
  • 使用selenium调用webdriver模块,模拟人真实的操作浏览器。

方法一:直接看源码+备注,具体原因看猪哥的解释(当然代码是自己写的啊,思想借用

 

在自行登录以后,把参数都复制到Data里替换掉代码中的data就可以。 在这里插入图片描述

方法二:使用selenium调用webdriver模块(自己写的,所以解释详细点

前提是安装了Chorm driver插件,Chorm插件下载地址。 下载完成后,解压到python根目录下即可。

driver可以模拟人在目标栏目输入,也可以模拟人对按钮进行点击。

对登录页面以及源码进行分析:发现在这里插入图片描述

 

所以,代码如下:在账号密码框里输入内容,点击登录进行登录.

 

注意,有时候登录时需要滑动滑块,手动滑动登录即可。

到此用户操作所用cookies的已经获取,这时候就可以搜索关键字了

进入搜索页:https://s.taobao.com/search? 输入关键字,观察url变化 在这里插入图片描述

我们发现q参数对应着搜索内容。然后翻动页面,来到第二页,观察url变化,发现变化的有s参数 在这里插入图片描述

研究多个页面发现,url需要修改的参数只有q与s。

在翻页的过程中,发现我们所需要的内容在Response的第0个回应中,即存在于Element中,所以只要获取到该网页的源码,就可以获取到数据。 在这里插入图片描述

所以使用https://s.taobao.com/search?q=自行车&s=88 这个格式(q表示搜索的关键字,s*44代表页数)的链接就可以访问带有数据的源码。

所以代码如下

 

这是我爬取的一个李宁卫衣的网页源码,发现重要信息保存在一个大字典:g_page_config中 在这里插入图片描述 在这里插入图片描述

所以我们可以通过正则表达式获取这个大字典,然后逐一提取各数据。或者直接正则各数据提取,我们采用第二种方法。

 

到这里已经把所有有效数据存储到title,location等变量中。它们均为字符串列表

使用csv保存数据

 

因为要求数据要根据销量降序排列,而销量数据格式为字符串。分析源码,发现源码中销量的表示一般有’8000+’、‘1.6万+’、‘784’这几种表示。即如果销量小于10000,则按照 ‘具体数字’ 或 ‘具体数字+’ 这样表示,如’845’、‘3500+’,如果数据大于一万,则会在后续加个万字, 如’1.6万+’,‘5.8万’,强转为float时需要做判断

所以,通过条件判断语句和if else判断

 

还有一个发现就是,商品的链接与nid是有关系的,具体关系如下

 

到此代码已经分析完毕,源码如下,登录时修改自己的账号密码,以及文件的保存路径即可

最新文章
如何有效利用百度购买关键词排名提升网站流量
青衣网络-www.ra0.cn:如何有效利用百度购买关键词排名提升网站流量目录:1. 理解百度关键词购买机制2. 确定目标关键词的策略3. 关键词竞价与优化技巧4. 监控和调整关键词表现5. 避免常见错误和陷阱6. 结语正文:理解百度关键词购买机制在
经验:百度收录规则与机制:运营专家分享亲身经历,提升收录率的秘诀
随着信息化时代的飞速发展,百度收录成为了每一位内容创作者难以避免的难题。本人身为一名具有丰富经验的运营专家,深谙百度收录规则与机制。今日在此,愿将亲身经历与众共享,期盼能为同业者带来有益的启示。百度收录的意义与现状首先要明
微信视频号链接地址怎么提取?4套方法都能用。
3. 点击链接中的保存视频按钮即可将视频保存到您的设备,或者直接提取视频号视频的链接。建议:选择在线视频下载器时,请确保选择合法可靠的网站,以避免安全风险。同时,在选择视频格式和质量时,根据您的需求考虑下载速度和存储空间。方
最新Q/W防洪跳转页面/微信小程序跳转到未备案域名
wwthyn.lanzoup.com/iJJ3f1hpcq2j使用教程: 1.上传插件网站根目录 2.打开khyy文件夹 修改index.php文件中的链接(url前面的0是跳转时间,可自行设置) echo 'html head     meta http-equiv="refre
苹果cms模板_我的主题网【第二十五套】精简宽屏大气苹果CMSv10模板DIY系列拆分版...
苹果cmsv10下载地址:https://www.mytheme.cn/maccms/243.html这款苹果cmsv10模板依然是DIY系列样式,优化重构了前期同系列的不足,添加了更流行的元素和设计风格,这是我们完全自主开发没用任何css框架且只针对影
SEO高手秘籍,网站搜索引擎脱颖而出之道
SEO优化高手通过深入理解搜索引擎算法,精准关键词研究,优化网站结构、内容和外部链接,提升网站质量和用户体验,从而让你的网站在搜索引擎中排名靠前,吸引更多流量。掌握这些技巧,让你的网站脱颖而出。探秘SEO优化基本原理精通SEO优化
seo优化面纱介绍 揭秘SEO优化面纱:提升排名的秘密策略
在当今这个信息爆炸的时代,互联网已成为企业展示自我、吸引客户、拓展市场不可或缺的重要平台而在这片浩瀚的数字海洋中,如何让您的网站脱颖而出,成为用户搜索时的首选,SEO(Search Engine Optimization,搜索引擎优化)优化无疑是一把
分析大型门户网站截取热门流量的SEO策略
一说到热门流量这个词,我想大家都会很快的想到利用热门话题或者热门事件来获取短期的高流量,在SEO里这种方式一般被称为截取流量,也就是利用SEO的方式来在短期内获得热门关键词的较好排名,从而获取短期的热门流量。比如网络上经常会出现
相关文章
推荐文章
发表评论
0评