数据收集—自动化采集脚本(爬虫)

   日期:2024-12-26    作者:nanbei2020 移动:http://mip.riyuangf.com/mobile/quote/27250.html

2.1、在谷歌浏览器中搜索百度,进入百度页面

2.2 在百度中搜索东方财富网。

2.3 因为不可能爬首页,要的是数据,所以本文以沪深京为例

2.4 可以看出:有5000多家上市公司的股票数据都在这里。

2.5 注意:网址

https://quote.eastmoney.com/center/gridlist.html#hs_a_board并不是纯数据的网址,还会有数据之外的文字(如行情中心等)。

数据收集—自动化采集脚本(爬虫)

2.6 如何获取纯数据的网址

2.7 确定73条数据那一条是需要的股票数据

2.8 得到股票数据的网址

https://23.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124020177006179756685_1723650631843&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:0+t:6,m:0+t:80,m:1+t:2,m:1+t:23,m:0+t:81+s:2048&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1723650631844

代码

 
 

3.1 获取浏览器标识

 

3.2 怎么找浏览器标识,在上一步找网址的最下面

3.3 获取浏览器标识最终代码。

 
 

4.1 需要用到工具requests.

 

4.2 运行结果

4.3 网页中的数据是可以在运行结果中找到的

①先举一个理解怎么筛选的例子,有一个文本
text=‘小明喜欢喝茶,喜欢唱歌,喜欢爬山,喜欢打篮球,她有很多很多爱好’。现在需要知道小明喜欢什么。

 
 
 
 
 
 
 
 
 
 
 

7.1 散乱数据说明

7.2 列表相关的知识点

 

1、列表中有多少个元素

 

2、索引:张三是0,李四是1,王五是2。如果要找张三:data[0]

7.3 组合数据

codelist有20个数据
namelist有20个数据
new_price有20个数据(纯手动数的,代码就用len实现

 
 
 

后面pycharm没出结果,改用jupyter可以出结果。


 

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号