数据收集—自动化采集脚本（爬虫）

日期：2024-12-26 作者：nanbei2020 移动：http://mip.riyuangf.com/mobile/quote/27250.html

2.1、在谷歌浏览器中搜索百度，进入百度页面

2.2 在百度中搜索东方财富网。

2.3 因为不可能爬首页，要的是数据，所以本文以沪深京为例

2.4 可以看出：有5000多家上市公司的股票数据都在这里。

2.5 注意：网址

https://quote.eastmoney.com/center/gridlist.html#hs_a_board并不是纯数据的网址，还会有数据之外的文字（如行情中心等）。

数据收集—自动化采集脚本（爬虫）

2.6 如何获取纯数据的网址

2.7 确定73条数据那一条是需要的股票数据

2.8 得到股票数据的网址

https://23.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124020177006179756685_1723650631843&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&dect=1&wbp2u=|0|0|0|web&fid=f3&fs=m:0+t:6,m:0+t:80,m:1+t:2,m:1+t:23,m:0+t:81+s:2048&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1723650631844

代码：

3.1 获取浏览器标识

3.2 怎么找浏览器标识，在上一步找网址的最下面

3.3 获取浏览器标识最终代码。

4.1 需要用到工具requests.

4.2 运行结果

4.3 网页中的数据是可以在运行结果中找到的

①先举一个理解怎么筛选的例子，有一个文本：
text=‘小明喜欢喝茶，喜欢唱歌，喜欢爬山，喜欢打篮球，她有很多很多爱好’。现在需要知道小明喜欢什么。

7.1 散乱数据说明

7.2 列表相关的知识点

1、列表中有多少个元素

2、索引：张三是0，李四是1，王五是2。如果要找张三：data[0]

7.3 组合数据

codelist有20个数据；
namelist有20个数据；
new_price有20个数据；（纯手动数的，代码就用len实现）

后面pycharm没出结果，改用jupyter可以出结果。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行