Python爬虫爬取动态网页

日期：2024-12-28 作者：zedh6 评论：0 移动：http://mip.riyuangf.com/mobile/news/11346.html

核心提示：系统环境：Background: 对于静态网页，我们只需要把网页地址栏中的url传到get请求中就可以轻松地获取到网页的数据。

系统环境：

Background:

对于静态网页，我们只需要把网页地址栏中的url传到get请求中就可以轻松地获取到网页的数据。但是，我们经常会遇到直接把网页地址栏中的url传到get请求中无法直接获取到网页的数据的情况，而且右键查看网页源代码也无法看到网页的数据，同时点击第二页、第三页等进行翻页的时候，网页地址栏中的url也没变，这些就是动态网页，例如：http://www.neeq.com.cn/disclosure/supervise.html 。

解决办法：

对于动态网页抓取的关键是先分析网页数据获取和跳转的逻辑，再去写代码。接下来，将以上面的那个网页为例，介绍如何利用Python来爬取动态网页的数据。

1、分析网页数据请求和跳转的逻辑：

如上图所示，我们打开网页之后，按“F12”进入chrome浏览器的开发工具，点击“Network”->XHR（有时候是JS），然后我们点击上面的页面跳转栏的“2”跳转到第二页，然后我们可以看到开发工具左边的框里出现了一个新的请求，即左下图的最下面那一行（蓝色那条），我们用鼠标点击它，就可以在右边显示出该请求的headers的相关信息。在Headers中我们可以知道：Requests URL就是该网页真正请求的URL，而且由Request Method可以知道这是一个post请求，而下面的Request Headers就是该请求所需要设置的headers参数。因为这是一个post请求，所以我们要查看一下post请求提交了那些数据，所以我们可以在右边的Headers中继续往下拉来查看。

所以由上图的Form Data我们可以知道，post请求上传了两个关键的数据：disclosureType和page，到此我们就成功地分析了该动态网页数据请求和跳转的逻辑，接下来通过编程来实现爬取该网页的数据。

2、Coding:

运行结果如下：

我们可以看到返回的数据req.content为json格式的数据，但是json数据的前面和后面分别是"jQuery18307528463705200819_1525173495230(["和"])"，所以我们要去掉这两部分，留下中间的json格式的数据。在此之前，我们可以发现“jQuery18307528463705200819_1525173495230”就是我们的url参数“callback”的值，所以为了去掉jQuery后面的一大串数字，我们可以把“callback”的值改成“jQuery”（当然你也可以改成其他的值），所以url变为'http://www.neeq.com.cn/disclosureInfoController/infoResult.do?callback=jQuery'，在此运行代码，可以得到：

而且我们发现req.content是一个字符串类型的数据，所以我们可以用：

来获取我们需要的中间的那部分json数据，此时代码如下：

运行结果如下：

我们把str_json打印出来的字符串复制粘贴到网上的json在线解析工具来分析该数据的规律，结果如下：

由右图，我们可以发现json数据的规律。接下来，我们先把str_json转成dict字典类型的数据：

然后就可以通过字典数据的相关操作来获取网页的相关数据了。

完整代码如下：

注意事项：

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类最新资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

最新资讯

点击排行

• 酷漫熊漫画	• seo优化标签的妙用（seo标签优化原则）
• 谷歌海外推广怎么样	• 磁力金牛电脑版代理商助力美妆行业品牌客户投放
• 如何通过SEO推广提升网站流量与排名，让你的生	• seo编辑是干什么的
• 银行、基金与科技企业聚首香蜜湖金融峰会：畅谈	• 爱看韩漫
• 苹果地图标注	• 亚马逊店铺能卖多少钱？转让要注意什么？