分享好友 最新动态首页 最新动态分类 切换频道
如何查看robots协议?怎么写?
2024-12-26 04:23

对于seo来讲,robots文件非常重要。搜索引擎爬虫爬取的网站的第一个文件便是这个文件,这个文件告诉搜索引擎网站的那些内容可以被爬取,那些内容不能被爬取,或者说禁止爬取。怎么查看robots协议?可以使用这种办法,主域名/robots.txt。

如何查看robots协议?怎么写?

怎么写robots协议

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,对于seo来讲,意义重大。

robots是一个协议,而不是一个命令。robots.txt文件是一个文本文件,是放置在网站根目录下,使用任何一个常见的文本编辑器,就可以创建和编辑它。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件,其主要的作用就是告诉蜘蛛程序在服务器上什么文件是可以被查看的。

robots协议文件的写法及语法属性解释-seo

如果将网站视为一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎进入”的提示牌。这个文件告诉来访的搜索引擎哪些房间可以进入和参观,哪些房间因为存放贵重物品,或可能涉及住户及访客的隐私而不对搜索引擎开放。但robots.txt不是命令,也不是防火墙,如同守门人无法阻止窃贼等恶意闯入者。

所以,seo建议各位站长仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件,如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

Robots协议是国际互联网界通行的道德规范,基于以下原则建立

1、搜索技术应服务于人类,同时尊重信息提供者的意愿,并维护其隐私权

2、网站有义务保护其使用者的个人信息和隐私不被侵犯。

robots协议文件的写法及语法属性解释-seo

robots.txt放到一个站点的根目录下即可,一个robots.txt只能控制相同协议,相同端口,相同站点的网页抓取策略。

1、robots.txt的常规写法

最简单的robots.txt只有两条规则

User-agent:指定对哪些爬虫生效

Disallow:指定要屏蔽的网址

整个文件分为x节,一节由y个User-agent行和z个Disallow行组成。一节就表示对User-agent行指定的y个爬虫屏蔽z个网址。这里x>=0,y>0,z>0。x=0时即表示空文件,空文件等同于没有robots.txt。

下面详细介绍这两条规则

(1)、User-agent

爬虫抓取时会声明自己的身份,这就是User-agent,没错,就是http协议里的User-agent,robots.txt利用User-agent来区分各个引擎的爬虫。

举例说明:google网页搜索爬虫的User-agent为Googlebot,下面这行就指定google的爬虫。

User-agent:Googlebot

如果想指定所有的爬虫怎么办?不可能穷举啊,可以用下面这一行

User-agent: *

可能有的同学要问了,我怎么知道爬虫的User-agent是什么?这里提供了一个简单的列表:爬虫列表

当然,你还可以查相关搜索引擎的资料得到官方的数据,比如说google爬虫列表,百度爬虫列表

(2)、Disallow

Disallow行列出的是要拦截的网页,以正斜线 (/) 开头,可以列出特定的网址或模式。

要屏蔽整个网站,使用正斜线即可,如下所示

Disallow: /

要屏蔽某一目录以及其中的所有内容,在目录名后添加正斜线,如下所示

Disallow: /无用目录名/

要屏蔽某个具体的网页,就指出这个网页,如下所示

Disallow: /网页.html

举例

User-agent: baiduspider

Disallow: /

User-agent: Googlebot

Disallow: /

seo解释:意思也就是禁止百度蜘蛛和Google蜘蛛抓取所有文章

2、robots.txt的高级写法

首先声明:高级玩法不是所有引擎的爬虫都支持,一般来说,作为搜索引擎seo技术领导者的谷歌支持的最好。

(1)、allow

如果需要屏蔽seo1-seo100,但是不屏蔽seo50,那我们该怎么办呢

方案1

Disallow:/seo1/

Disallow:/seo2/

Disallow:/seo49/

Disallow:/seo51/

Disallow:/seo100/

方案2

Disallow:/seo

Allow:/seo50/

对比以上2个方案,大家应该知道allow的用法了吧,如果你网站目前也有这个需求的话,seo技术建议你可以使用方案2来解决。

但如果想屏蔽seo50下面的文件seo.htm,又该怎么办呢

Disallow:/seo

Allow:/seo50/

Disallow:/seo50/seo.html

聪明的你一定能发现其中的规律,对吧?谁管的越细就听谁的。

(2)、sitemap

前面说过爬虫会通过网页内部的链接发现新的网页,但是如果没有连接指向的网页怎么办?或者用户输入条件生成的动态网页怎么办?能否让网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页?这就是sitemap。

最简单的Sitepmap形式就是XML文件,在其中列出网站中的网址以及关于每个网址的其他数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等等),利用这些信息搜索引擎可以更加智能地抓取网站内容。

新的问题来了,爬虫怎么知道这个网站有没有提供sitemap文件,或者说网站管理员生成了sitemap(可能是多个文件),爬虫怎么知道放在哪里呢

由于robots.txt的位置是固定的,于是大家就想到了把sitemap的位置信息放在robots.txt里,这就成为robots.txt里的新成员了,比如

sitemap: http://www.xminseo.com/sitemap.html

考虑到一个网站的网页众多,sitemap人工维护不太靠谱,对此,seo建议你可以使用google提供了工具可以自动生成sitemap。

(3)、meta tag

其实严格来说这部分内容不属于robots.txt,不过也算非常相关,我也不知道放哪里合适,暂且放到这里吧。

robots.txt的初衷是为了让网站管理员管理可以出现在搜索引擎里的网站内容。但是,即使使用robots.txt文件让爬虫无法抓取这些内容,搜索引擎也可以通过其他方式找到这些网页并将它添加到索引中。

例如,其他网站仍可能链接到该网站,因此,网页网址及其他公开的信息(如指向相关网站的链接中的定位文字或开放式目录管理系统中的标题)有可能会出现在引擎的搜索结果中,如果想彻底对搜索引擎隐身那咋整呢?seo给你的答案是:元标记,即meta tag。

比如要完全阻止一个网页的内容列在搜索引擎索引中(即使有其他网站链接到此网页),可使用noindex元标记。只要搜索引擎查看该网页,便会看到noindex元标记并阻止该网页显示在索引中,这里注意noindex元标记提供的是一种逐页控制对网站的访问的方式。

比如:要防止所有搜索引擎将网站中的网页编入索引,那你就可以在网页的头部代码部分添加

这里的name取值可以设置为某个搜索引擎的User-agent从而指定屏蔽某一个搜索引擎。

除了noindex外,还有其他元标记,比如说nofollow,禁止爬虫从此页面中跟踪链接。这里seo再提一句:noindex和nofollow在HTML 4.01规范里有描述,但是其他tag的在不同引擎支持到什么程度各不相同,还请读者自行查阅各个引擎的说明文档。

(4)、Crawl-delay

除了控制哪些可以抓哪些不能抓之外,robots.txt还可以用来控制爬虫抓取的速率。如何做到的呢?通过设置爬虫在两次抓取之间等待的秒数。

Crawl-delay:5

表示本次抓取后下一次抓取前需要等待5秒。

seo提醒大家一点:google已经不支持这种方式了,不过在webmaster tools里提供了一个功能可以更直观的控制抓取速率。

这里插一句题外话,几年前seo记得曾经有一段时间robots.txt还支持复杂的参数:Visit-time,只有在visit-time指定的时间段里,爬虫才可以访问;Request-rate: 用来限制URL的读取频率,用于控制不同的时间段采用不同的抓取速率。

后来估计支持的人太少,就渐渐的废掉了,有兴趣的博友可以自行研究一下,seo了解到的是目前google和baidu都已经不支持这个规则了,其他小的引擎公司貌似从来都没有支持过。

Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如图片,音乐,视频等,节省服务器带宽;也可以屏蔽站点的一些死链接,方便搜索引擎抓取网站内容;再或者是设置网站地图连接,方便引导蜘蛛爬取页面。

User-agent: 这里的代表的所有的搜索引擎种类,*是一个通配符。

Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录。

Disallow: /mahaixiang/*.htm 禁止访问/mahaixiang/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /? 禁止访问网站中所有包含问号 (?) 的网址。

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片。

Disallow:/mahaixiang/abc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /mahaixiang/ 这里定义是允许爬寻mahaixiang目录下面的目录。

Allow: /mahaixiang 这里定义是允许爬寻mahaixiang的整个目录。

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片。

Sitemap: /sitemap.html 告诉爬虫这个页面是网站地图。

举例

User-agent: *

Disallow: /?*

Disallow: /seo/*.htm

User-agent: EtaoSpider

Disallow: /

seo解释:意思就是有禁止所有搜索引擎来抓网站中所有包含问号 (?) 的网址和seo目录下的.htm文章。同时,对etao完全屏蔽。

1、Robot-version: 用来指定robot协议的版本号

例子: Robot-version: Version 2.0

2、Crawl-delay:雅虎YST一个特定的扩展名,可以通过它对我们的抓取程序设定一个较低的抓取请求频率。

您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序两次进入站点时,以秒为单位的最低延时。

3、Crawl-delay:定义抓取延迟

例子: Crawl-delay:/mahaixiang/

4、Visit-time: 只有在visit-time指定的时间段里,robot才可以访问指定的URL,否则不可访问。

例子: Visit-time: 0100-1300 #允许在凌晨1:00到13:00访问

5、Request-rate: 用来限制URL的读取频率

例子: Request-rate: 40/1m 0100 - 0759 在1:00到07:59之间,以每分钟40次的频率进行访问。

Request-rate: 12/1m 0800 - 1300 在8:00到13:00之间,以每分钟12次的频率进行访问。

seo点评

Robots协议是网站出于安全和隐私考虑,防止搜索引擎抓取敏感信息而设置的,搜索引擎的原理是通过一种爬虫spider程序,自动搜集互联网上的网页并获取相关信息。

而鉴于网络安全与隐私的考虑,每个网站都会设置自己的Robots协议,来明示搜索引擎,哪些内容是愿意和允许被搜索引擎收录的,哪些则不允许,搜索引擎则会按照Robots协议给予的权限进行seo抓取。

最新文章
AI写作助手:让你的文章优秀起来!
ai写作助手:让你的文章优秀起来!在这个信息爆炸的时代,写作成为了我们工作和生活中不可或缺的一部分。然而,有时候我们可能会遇到困扰,不知道该AI写作助手更好地表达自己的思想,或者文章内容显得平淡乏味。幸运的是,现在有了AI写作助
AI写代码准确率高达80% 离自动生成程序还有多远?
日前,全球最大开源代码托管平台GitHub的CEO托马斯·多梅克(Thomas Dohmke)亲自演示了人工智能(AI)写代码。他现场仅花15分钟就制作完成了一个小游戏APP,并将其成功上线。AI在写代码上带来的便利得到了不少程序员的认可。谷歌工程师Aik
2024年旗舰手机怎么选?618选购攻略及超人气产品推荐
​​马上又到618,一年中数码产品促销最给力的一个电商节,或许你也准备把用了多年的旧手机扔掉,换一款新旗舰犒劳一下辛苦忙碌的自己。那么新旗舰手机怎么选呢?此文就与大家谈一谈这个问题,并推荐五款超人气旗舰手机:⭕️ 旗舰手机怎么
AI微短剧创作指南:从构思到剧本撰写全方位解析与实践
近年来随着人工智能技术的快速发展,在内容创作领域的应用日益广泛。国内首部全流程微短剧《补天》的成功发布,标志着技术在我国短视频创作领域的深入应用。本文将为您详细介绍微短剧的创作过程,从构思到剧本撰写全方位解析与实践。1. 主
1000以内的智能手机推荐 性价比才是王道
  现如今,手机已经渐渐的融入了我们的生活,不论走在哪里,我们都可以看到每个人手上拿着一部手机,忙碌的工作着。手机由于性能的不同在价位上存在着很大的差异,从几百元到五六千元,各个价格阶段都有数百款乃至数千款的手机。对于工薪
AI生成美女写真:掌握这几个神器,轻松创建你的AI女友!
ArtbreederArtbreeder是一款十分流行的AI生成艺术图片工具,允许用户通过合成和调整不同的”基因“来创造出独一无二的头像和风景图。其最大的优势在于用户可以通过简单的滑块调节各种效果,包括肤色、发型、表情等,适合那些喜欢尝试和调整
1.88亿元,zycgr再次采购大批仪器设备
采购项目需求概况预算金额/万元采购时间定制式自动化高通量药物筛选平台拟购置药物筛选平台,实现自动化的高通量药物筛选(HTS),主要包括:1、通过自动化管理系统将多台不同功能、不同品牌的实验仪器整合起来,自动化的完成复杂实验任务
2023玩家最多的手游有哪些 人气最高的手游游戏排行榜
2023玩家最多的手游有哪些?这里为大家提供人气最高的手游游戏排行榜!此外盒子里还包含1000余款热门手游公益服任选,国内手游领跑者,想要尝试其他类型游戏的朋友也可以进入盒子搜索对应游戏名进行体验哦,咪噜游戏平台:H5手游、APP手游、
2024年新奥开奖结果,新式数据解释设想_知晓版19.885
标题:2024年新奥开奖结果,新式数据解释设想_知晓版19.885===  在2024年,新奥彩票行业经历了一场技术革新,不仅奖项设置更加多元和丰富,而且对于开奖结果的数据统计和解释也更加详尽和专业。因此,本文旨在为彩民提供一个全面的视角,
AI绘画在线生成器免费版:让你轻松释放创造力
AI绘画在线生成器是一款强大的工具,它利用人工智能技术为用户提供免费的绘画服务,大大减轻了艺术创作的难度。本文将介绍AI绘画在线生成器的使用方法及其优势,帮助你轻松释放创造力。一、AI绘画在线生成器的访问入口AI绘画在线生成器的访
相关文章
推荐文章
发表评论
0评