分享好友 最新动态首页 最新动态分类 切换频道
10个好用到爆的“反爬虫“措施!
2024-12-27 00:22

无论是浏览器还是爬虫程序,在向服务器发起网络请求的时候,都会发过去一个头文件:headers,比如知乎的requests headers

这里面的大多数的字段都是浏览器向服务表明身份用的

对于爬虫程序来说,最需要注意的字段就是:User-Agent

很多网站都会建立user-agent白名单,只有属于正常范围的user-agent才能够正常访问。

解决方法

可以自己设置一下user-agent,或者更好的是,可以从一系列的user-agent里随机挑出一个符合标准的使用。图片

实现难度:★

如果一个固定的ip在短暂的时间内,快速大量的访问一个网站,后台管理员可以编写IP限制,不让该IP继续访问。

解决方法

比较成熟的方式是:IP代理池

简单的说,就是通过ip代理,从不同的ip进行访问,这样就不会被封掉ip了。

可是ip代理的获取本身就是一个很麻烦的事情,网上有免费和付费的,但是质量都层次不齐。如果是企业里需要的话,可以通过自己购买集群云服务来自建代理池。

实现难度:★

后台统计登录用户的操作,比如短时间的点击事件,请求数据事件,与正常值比对,用于区分用户是否处理异常状态,如果是,则限制登录用户操作权限。

缺点:需要增加数据埋点功能,阈值设置不好,容易造成误操作。

解决方法

注册多个账号、模拟正常操作。

实现难度:★★★

蜘蛛陷阱导致网络爬虫进入无限循环之类的东西,这会浪费蜘蛛的资源,降低其生产力,并且在编写得不好的爬虫的情况下,可能导致程序崩溃。礼貌蜘蛛在不同主机之间交替请求,并且不会每隔几秒钟从同一服务器请求多次文档,这意味着“礼貌”网络爬虫比“不礼貌”爬虫的影响程度要小得多。

反爬方式

  • 创建无限深度的目录结构 HTTP://example.com/bar/foo/bar/foo/bar/foo/bar /

  • 动态页面,为网络爬虫生成无限数量的文档。如由算法生成杂乱的文章页面。

  • 文档中填充了大量字符,使解析文档的词法分析器崩溃。

此外,带蜘蛛陷阱的网站通常都有robots.txt告诉机器人不要进入陷阱,因此合法的“礼貌”机器人不会陷入陷阱,而忽视robots.txt设置的“不礼貌”机器人会受到陷阱的影响。

解决方法

把网页按照所引用的css文件进行聚类,通过控制类里最大能包含的网页数量防止爬虫进入trap后出不来,对不含css的网页会给一个penalty,限制它能产生的链接数量。这个办法理论上不保证能避免爬虫陷入死循环,但是实际上这个方案工作得挺好,因为绝大多数网页都使用了css,动态网页更是如此。

缺点:反爬方式1,2会增加很多无用目录或文件,造成资源浪费,也对正常的SEO十分不友好,可能会被惩罚。

实现难度:★★★

验证码是一种区分用户是计算机还是人的公共全自动程序。可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式.

图片验证码:复杂型

打码平台雇佣了人力,专门帮人识别验证码。识别完把结果传回去。总共的过程用不了几秒时间。这样的打码平台还有记忆功能。图片被识别为“锅铲”之后,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,图片验证码服务器里的图片就被标记完了,机器就能自动识别了。

图片验证码:简单型

上面两个不用处理直接可以用OCR识别技术(利用python第三方库–esserocr)来识别。

背景比较糊

清晰可见

经过灰度变换和二值化后,由模糊的验证码背景变成清晰可见的验证码。

容易迷惑人的图片验证码

对于在这种验证码,语言一般自带图形库,添加上扭曲就成了这个样子,我们可以利用9万张图片进行训练,完成类似人的精准度,到达识别验证码的效果

短信验证码用ebbrowser术,模拟用户打开短信的行为,最终获取短信验证码。

计算题图片验证码

把所有可能出现的汉字都人工取出来,保存为黑白图片,把验证码按照字体颜色二值化,去除噪点,然后将所有图片依次与之进行像素对比,计算出相似值,找到最像的那张图片

滑动验证码

对于滑动验证码,我们可以利用图片的像素作为线索,确定好基本属性值,查看位置的差值,对于差值超过基本属性值,我们就可以确定图片的大概位置。

图案验证码

对于这种每次拖动的顺序不一样,结果就不一样,我们怎么做来识别呢?

  • 利用机器学习所有的拖动顺序,利用1万张图片进行训练,完成类似人的操作,最终将其识别

  • 利用selenium技术来模拟人的拖动顺序,穷尽所有拖动方式,这样达到是别的效果

标记倒立文字验证码

我们不妨分析下:对于汉字而言,有中华五千年庞大的文字库,加上文字的不同字体、文字的扭曲和噪点,难度更大了。

**方法:**首先点击前两个倒立的文字,可确定7个文字的坐标, 验证码中7个汉字的位置是确定的,只需要提前确认每个字所在的坐标并将其放入列表中,然后人工确定倒立文字的文字序号,将列表中序号对应的坐标即可实现成功登录。

解决方法

接入第三方验证码平台,实时破解网站的验证码。

缺点:影响正常的用户体验操作,验证码越复杂,网站体验感越差。

实现难度:★★

robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛,此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。

robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有与没有斜杠“/”表示的是不同的URL。

缺点:只是一个君子协议,对于良好的爬虫比如搜索引擎有效果,对于有目的性的爬虫不起作用

解决方法

如果使用scrapy框架,只需将settings文件里的ROBOTSTXT_OBEY设置值为 False

实现难度:★

python的requests库只能爬取静态页面,爬取不了动态加载的页面。使用JS加载数据方式,能提高爬虫门槛。

解决方法

抓包获取数据url

通过抓包方式可以获取数据的请求url,再通过分析和更改url参数来进行数据的抓取。

示例

  • 看https://image.baidu.com这部分的包。可以看到,这部分包里面,search下面的那个 url和我们访问的地址完全是一样的,但是它的response却包含了js代码。
  • 当在动物图片首页往下滑动页面,想看到更多的时候,更多的包出现了。从图片可以看到,下滑页面后得到的是一连串json数据。在data里面,可以看到thumbURL等字样。它的值是一个url。这个就是图片的链接。
  • 打开一个浏览器页面,访问thumbURL=“https://ss1.bdstatic.com/70cFvXSh_Q1YnxGkpoWK1HF6hhy/it/u=1968180540,4118301545&fm=27&gp=0.jpg” 发现搜索结果里的图片。

  • 根据前面的分析,就可以知道,请求

 

用浏览器访问这个链接确定他是公开的。

  • 最后就可以寻找URL的规律,对URL进行构造便可获取所有照片。

使用selenium

通过使用selenium来实现模拟用户操作浏览器,然后结合BeautifulSoup等包来解析网页通过这种方法获取数据,简单,也比较直观,缺点是速度比较慢。

缺点:如果数据API没做加密处理,容易曝光接口,让爬虫用户更容易获取数据。

实现难度:★

前端加密 通过对查询参数、user-agent、验证码、cookie等前端数据进行加密生成一串加密指令,将加密指令作为参数,再进行服务器数据请求。该加密参数为空或者错误,服务器都不对请求进行响应。

服务器端加密 在服务器端同样有一段加密逻辑,生成一串编码,与请求的编码进行匹配,匹配通过则会返回数据。

解决方法

JS加密破解方式,就是要找到JS的加密代码,然后使用第三方库js2py在Python中运行JS代码,从而得到相应的编码。

案例参考

 

缺点:加密算法明文写在JS里,爬虫用户还是可以分析出来。

实现难度:★★★

服务器端根据字体映射文件先将客户端查询的数据进行变换再传回前端,前端根据字体文件进行逆向解密。

映射方式可以是数字乱序显示,这样爬虫可以爬取数据,但是数据是错误的。

解决办法

其实,如果能看懂JS代码,这样的方式还是很容易破解的,所以需要做以下几个操作来加大破解难度。

  • 对JS加密

  • 使用多个不同的字体文件,然后约定使用指定字体文件方式,比如时间戳取模,这样每次爬取到的数据映射方式都不一样,映射结果就不一样,极大提高了破解的难度。该种方式相比使用加密算法方式难度更高,因为加密算法是固定的几种,对方很容易获取并破解,而字体文件映射可以按任意规则映射,正常的数据使之错误显示,爬虫不容易察觉。

参考案例:https://www.jianshu.com/p/f79d8e674768

缺点:需要生成字体文件,增加网站加载资源的体量。

实现难度:★★★★

此方式主要针对使用senlium进行的爬虫,如果模拟界面未进入可视区域,则对未见数据进行遮挡,防止senlium的click()操作。这种方式只能稍稍降低爬虫的爬取速度,并不能阻止继续进行数据爬取。

实现难度:★

以上就是“10个好用到爆的"反爬虫"措施!”的全部内容,希望对你有所帮助。

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python必备开发工具

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、Python练习题

检查学习结果。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

最后祝大家天天进步

最新文章
网站屏蔽Cloudflare cf使用workers搭建的反代爬虫bot,免费技术分享
网站屏蔽Cloudflare cf使用workers搭建的反代爬虫bot,REMOTE_ADDR header头部禁止 2a06:98c0:3600::103 ipv6地址,非真实浏览器禁止访问服务器检测 REMOTE_ADDR 或者 X_FORWARDED_FOR 字符串的header头部信息,匹配ip为 2a06:98c0:3600::1
高德地图怎样开通店铺定位功能 2024新渠道
现如今,随着互联网的飞速发展,人们对实时定位信息的需求也越来越高。而作为国内lingxian的地图应用平台,高德地图推出了一项全新的功能——店铺定位。这一功能可以帮助商家将自己的店铺位置准确标注在地图上,让用户更方便地找到他们的店
智能文案生成工具:百度AI写作平台全新上线
随着互联网的快速发展内容创作已经成为当下最为热门的行业之一。在高效产出高优劣内容的需求下传统的人工写作办法逐渐显得力不从心。为此百度研发并推出了一款基于人工智能技术的应用程序——文心一言致力于全面提升内容创作效率。本文将详
张文宏被AI合成带货视频,现象、反思与未来展望_动态词语解释
摘要:张文宏被AI合成带货视频的现象引起了广泛关注。本文简#
深入解析组中值的概念及其计算方法
  《组中值怎么算》  在统计学中,组中值这个概念听起来可能有点复杂,但其实它并不难理解。今天我们就来聊聊什么是组中值,以及如何计算它。无论你是学生、老师,还是对数据分析感兴趣的朋友,这篇文章都能给你带来一些启发。  首先
这个AI提示词轻松提炼内容要点,让你秒变学霸!
可能只需要短短几分钟,却可以帮我们省下成倍的时间!成年的世界往往更加注重效率!想象一下,你是个埋头苦读的学生,面对那堆能压垮骆驼的课本,是不是感到无从下手?如果你和AI聊聊,它立马帮你梳理出精华,效率远超你通宵达旦抄笔记。如
梦幻西游手游神兽多少钱一只 6技能神兽价格
  1.先获得神兽  神兽可以直接摆摊买别人出售的神兽,也可以自己用神兜兜兑换,随机兑换需要99个神兜兜,指定兑换需要一个神兽和25个神兜兜,这里用的是神兜兜方式,神兜兜价格现在基本是3.5万(热门老区价格会贵一点,现在有将近4万的)
成品人网站w灬:提升成品人网站的用户体验与功能,助力创意无限发展!
  W灬主题以其独特的设计风格和丰富的功能,吸引了大量用户。该主题不仅适用于个人博客,还能为企业网站增添专业感。无论是简约大方还是华丽复杂,都能够满足不同需求的用户。  社交分享按钮让内容传播更加便捷,通过简单的一键操作即
捷众科技12月13日获融资买入108.82万元,融资余额514.69万元
12月13日,跌2.61%,成交额3329.31万元。两融数据显示,当日捷众科技获融资买入额108.82万元,融资偿还0.00元,融资净买入108.82万元。截至12月13日,捷众科技融资融券余额合计514.69万元。融资方面,捷众科技当日融资买入108.82万元。当前
相关文章
推荐文章
发表评论
0评