三分钟学会使用自动化的技术写爬虫

很多同学对爬虫比较感兴趣，很想知道什么是爬虫到底是什么，爬虫学起来难不难？从哪里入手开始学习？

这里我想跟大家说，其实你们学完自动化之后，要想学习爬虫，其实非常简单，爬虫里面用到的技术，我们在学习自动化的时候基本上都学过了。

只不过不知道如何使用自动化的技术来实现爬虫，那么接下来我们就来聊聊如何使用自动化的项目技能来实现爬虫。

01

什么是爬虫

学习爬虫之前我们来先了解一下爬虫的概念，什么是爬虫？

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫

——百度百科解释

爬虫和实现自动化实现流程对比：

02

爬虫和实现使用技术分析

发请求，访问页面

▲ requests（接口自动化必备技能）

▲ selenium（web自动化必备技能）

提取页面数据

▲ Xpath（web自动化元素定位的技能）

可以看得出，上述所需要的技能

03

环境安装

首先第一步就是关于环境的安装，环境安装前提：安装好python。然后在这边，我们还需要安装两个第三方库，第一个是requests，是用来发送网络请求的，第二个库是lxml是用来解析页面数据的。

1、requests模块安装

2、lxml模块安装

04

数据爬取实战

目标：获取北京地区自动化测试的所有热门岗位！

目标地址：

https://www.zhipin.com/c101010100/?query=%E8%87%AA%E5%8A%A8%E5%8C%96%E6%B5%8B%E8%AF%95&ka=sel-city-101010100

待获取的目标数据

▲ 职位名称

▲ 薪资范围

▲ 所属公司

爬虫实现的步骤：

1、构造请求数据

在发送请求时，注意请求头要写加上cookie和user-agent，否则无法获取到正确的页面数据（关于cookie和user-agent可以去浏览器上复制过来）

2、发送网络请求

3、提取页面数据

综合整理代码如下：

运行以上代码就能爬取到我们所需要的数据了。

最后： 下方这份完整的软件测试视频学习教程已经整理上传完成，朋友们如果需要可以自行免费领取

这些资料，对于【软件测试】的朋友来说应该是最全面最完整的备战仓库，这个仓库也陪伴上万个测试工程师们走过最艰难的路程，希望也能帮助到你！

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行