分享好友 最新动态首页 最新动态分类 切换频道
手把手教你利用Python网络爬虫获取APP推广信息
2024-12-26 05:09

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

手把手教你利用Python网络爬虫获取APP推广信息

作者:Python进阶者

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入


CPA之家app推广平台是国内很大的推广平台。该网址的数据信息高达数万条,爬取该网址的信息进行数据的分析。

项目目标


实现将获取到的QQ,导入excel模板,并生成独立的excel文档。

项目分析


反爬措施处理

前期测试时发现,该网站反爬虫处理措施很多,测试到有以下几个

  1. 直接使用requests库,在不设置任何header的情况下,网站直接不返回数据。

  2. 同一个ip连续访问40多次,直接封掉ip,起初我的ip就是这样被封掉的。

为了解决这两个问题,最后经过研究,使用以下方法,可以有效解决。

  1. 获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。

  2. 使用 fake_useragent ,产生随机的UserAgent进行访问。

需要的库和网址

1、网址,如下所示

https://www.cpajia.com/index.php?g=Wap&a=searchua

2、需要用到的库:、、、

项目实现


我们定义get_page方法, 准备url地址和请求头headers,导入对应的库。

import requests

import os

import re

from fake_useragent import UserAgent

from lxml import etree

house_dict = {} #定义一个字典

def get_page(url, page_num):

pass

url = ‘https://www.cpajia.com/index.php?g=Wap&a=search’ #网址

ua = UserAgent(verify_ssl=False) #随机的UserAgent

kv = {

‘User-Agent’: ua.random}

pageList = get_page()

下面介绍一下如何爬取ajax动态加载的网页方法。

翻页时发现它的url并没有改变,无法简单的通过request.get()访问其他页面。据搜索资料,了解到这些网站是通过ajax动态加载技术实现。即可以在不重新加载整个网页的情况下,对网页的某部分进行更新。

通过分析响应请求,模拟响应参数。再通过requests库的request.post()函数去post相对应的参数即可。

具体方法如下:打开开发者工具,快捷键,不行就。

<1>标红的箭头network, 在其中可以看到服务器加载过来的资源。

< 2>标红的框框一个过滤器,你可以按照文件格式筛选。

Headers中的request method 中显示我们使用的是POST方法。而且FROM Data 中有一个参数,PageIndex。

利用Form Data 中的数据,编写一个字典,赋值给requests.post()中的data即可。

接下来就可以正常访问和翻页了

对网站发生请求

import requests

import os

import re

from fake_useragent import UserAgent

from lxml import etree

def get_page(url, page_num):

pageList = []

for i in range(1, page_num + 1):

formdata = {‘PageIndex’: i}

ua = UserAgent(verify_ssl=False)

kv = {‘User-Agent’: ua.random}

pageList = get_page()

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

最新文章
最新部落冲突360版,游戏变革与深度体验分享
摘要:最新版本的360版部落冲突游戏带来了诸多变革与全新体验。游戏更新优化了界面设计,增加了新的战斗策略和英雄角色,提升了游戏的互动性和竞技性。玩家可以组建或加入部落,与全球玩家一同合作,共同争夺资源和领地。新版本还加强了社
超级文本处理工具 v3.3
超级文本处理工具 v3.3 骨瘦如柴百鸟画蛇添足鸣春10. 生活中能够没有诗歌,但不能没有诗意;行进中能够没有道路,但不能没有前进的脚步;工作中能够没有经验,但不能没有学习,人生中能够没有闪光,但不能有污迹。写作高手使用的高难度表达:
抖音豆包爆火!龙头10天6板 受益上市公司梳理
  豆包大模型概念股领涨AI赛道,公司移动应用分发平台服务了豆包在内的众多头部AI类产品的周五收盘10天6板,居然设计家业务正在与豆包进行对接的6天5板,与字节跳动旗下的豆包就智能设备领域进行初步洽谈的盘中一度20CM涨停。  消息面
贵宾犬能吃香蕉吗 饮食禁忌有哪些
贵宾犬是能吃香蕉的,但如果是没有打疫苗的幼犬,建议不要给它喂食香蕉,否则容易引起狗狗腹泻。此外,也不可给狗狗食用太多,过多会导致肠道菌群失衡。贵宾犬是可以吃香蕉的,在狗狗便秘或食欲不好的时候给于适当的香蕉可以起到调节作用,
高清美女写真生成:以AI为助手,轻松实现你的梦幻场景!
DALL-E 2DALL-E 2是OpenAI推出的一款先进工具,凭借其强大的生成能力,用户只需简单输入文本描述,工具便可以生成高质量、符合描述的图像。DALL-E 2不仅能制作超逼真的美女照片,还能够根据用户需求加入背景、道具和风格等。虽然它拥有惊人
设计师必用的五个AI绘图神器?第一个太重磅!
前言       以往绘制设计图时,需要从零开始构思、草拟、搜集素材、精细调整每个元素,这一连串步骤既耗时又费力,往往需要数小时乃至数日的不懈努力。      而今,借助AI绘图工具,这一切变得截然不
退本《DeePLAPP》遭遇任务骗局,提现无门怎么办?
DeePLAPP遭遇任务骗局,提现无门怎么办?技术出嘿『溦:9836356』(一)希望阅读此文的读者能够及时采取措施以减少损失;请及时与团队联系提供解决方案(文章下面图片有咨询方式)若想追回损失资产,务必仔细阅读以下内容。【JFHHERYERY】2024年
用AI绘画工具一键生成超逼真美女写真,快来试试!
步骤二:选择模式在主界面中选择“美女写真生成”模式,准备开始你的创作之旅。步骤三:输入描述在输入框中输入您想要的主题与细节,比如“优雅的中国风美女”。步骤四:生成图像点击“生成”按钮,等待几秒钟,系统将自动为您生成相应的美
靠产品力说话,坦克300发动机表现如何
在汽车市场日益激烈的竞争中,消费者对汽车的需求逐渐转向越野性能的提升,尤其是年轻一代,他们追求个性化和与众不同的座驾。在这样的背景下,国产汽车品牌纷纷推出满足市场需求的硬派越野SUV,其中坦克300凭借其卓越的产品力脱颖而出。今
谷歌SEO时,该信赖哪个Keyword research工具?
在SEO的浩瀚宇宙中,关键词研究如同指南针,引领我们穿越信息迷雾,直击目标受众的心智。作为一名实战派SEOer,我深知选择合适的Keyword Research工具对于谷歌SEO的重要性。今天,就让我们一同探讨,哪些工具能成为我们信赖的伙伴,助力网
相关文章
推荐文章
发表评论
0评