您当前的位置:首页 > 电脑百科 > 站长技术 > 网站

robots.txt文件的作用及写法

时间:2019-09-18 09:34:13  来源:  作者:

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt文件的作用及写法

 

Robots.txt文件的重要性

robots.txt是搜索引擎蜘蛛访问网站时要查看的第一个文件,并且会根据robots.txt文件的内容来爬行网站。在某种意义上说,它的一个任务就是指导蜘蛛爬行,减少搜索引擎蜘蛛的工作量。

当搜索引擎蜘蛛访问网站时,它会首先检查该站点根目录下是否存在robots.txt文件,如果该文件存在,搜索引擎蜘蛛就会按照该文件中的内容来确定爬行的范围;如果该文件不存在,则所有的搜索引擎蜘蛛将能够访问网站上所有没有被口令保护的页面。

通常搜索引擎对网站派出的蜘蛛是有配额的,多大规模的网站放出多少蜘蛛。如果我们不配置robots文件,那么蜘蛛来到网站以后会无目的的爬行,造成的一个结果就是,需要它爬行的目录,没有爬行到,不需要爬行的,也就是我们不想被收录的内容却被爬行并放出快照。所以robots文件对于我们做网站优化来说具有很重要的影响。

网站没有Robots.txt文件的弊端

如果网站中没有robots.txt文件,则网站中的程序脚本、样式表等一些和网站内容无关的文件或目录即使被搜索引擎蜘蛛爬行,也不会增加网站的收录率和权重,只会浪费服务器资源;

搜索引擎派出的蜘蛛资源也是有限的,我们要做的应该是尽量让蜘蛛爬行网站重点文件、目录,最大限度的节约蜘蛛资源。

Robots.txt文件的存放位置

网站根目录下,通过“域名/robots.txt”能正常访问即可,如http://域名/robots.txt

robots.txt文件的作用及写法

 

Robots.txt文件的写法

User-agent:%20*%20*代表所有搜索引擎,也可指定搜索引擎,如指定百度,User-agent:%20BaiduspiderDisallow:%20/a/%20这里定义是禁止抓取a目录下面的所有内容Disallow:%20/cgi-bin/*.htm%20禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)Disallow:%20/*?*%20禁止访问网站中所有包含问号%20(?)%20的网址Disallow:%20/.jpg$ 禁止抓取网页所有的.jpg格式的图片Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。Allow: /cgi-bin/a/ 这里定义是允许爬寻cgi-bin目录下面的a目录Allow: /tmp 这里定义是允许爬寻tmp的整个目录Allow: .htm$ 允许访问以”.htm”为后缀的URL。Allow: .gif$ 允许抓取网页和gif格式图片Sitemap: 网站地图,告诉爬虫这个页面是网站地图

迪思网站托管建议的robots文件书写方式

User-agent: *

Disallow: /i*/

Disallow: /a*d/

Disallow: /*.php

Disallow: /*/*.php

Disallow: /*/list*.html

Allow: /img/

Sitemap: https://域名/sitemap.xml

迪思网站托管Robots.txt文件的说明

User-agent: *

(注释:这里的*代表所有的搜索引擎种类,*是一个通配符;当然你也可以针对某个搜索引擎,如User-agent: Baiduspider、User-Agent: 360Spider、User-Agent: Sogouspider。)

Disallow: /i*/

(注释:Disallow为禁止爬行,如果需要禁止蜘蛛爬行images目录,可以写为Disallow: /images/ ;推荐本站采用的写法,Disallow: /i*/,可以在一定程度上提高网站的安全性,如果写成Disallow: /images/可能会暴露网站后台文件路径,特别是管理路径。采用通配符的写法需要注意一点,i*代表所有以w开头的目录。)

Disallow: /a*d/

(注释:禁止爬行所有以字母a开始、以字母d结束的目录,如/abd/、/acd/、/abcd/,这种写法也是出于安全考虑。)

Disallow: /*.php

(注释:禁止爬行根目录下的所有以.php结尾的文件,实际情况可以根据你所使用的网站程序来决定。)

Disallow: /*/*.php

(注释:禁止爬行所有目录下的所有以.php结尾的文件。)

Disallow: /*/list*.html

(注释:网站栏目文章多的时候会有分页,如第1页、第2页……,如果需要禁止爬行分页,假设分页URL为www.xxx.com/news/list_1_32.html,我们可以采取Disallow: /*/list*.html这种写法来禁止爬行所有目录下的所有分页。)

Allow: /img/

(注释:Allow代表允许爬行。Disallow: /i*/为禁止爬行所有以i开头的目录,但是我们需要让蜘蛛爬行img这个目录,可以采用Allow: /img/这种写法。)



Tags:robots.txt   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
robots.txt协议是网站和搜索引擎的协议。作为网站优化人员,一定要会看robots文件,也要会写robots文件,那么,robots.txt文件有什么作用?robots.txt文件的作用有:(1)引导搜索引擎蜘蛛...【详细内容】
2020-10-12  Tags: robots.txt  点击:(172)  评论:(0)  加入收藏
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,假如存在,搜索机器人就会按照该文件...【详细内容】
2020-01-08  Tags: robots.txt  点击:(74)  评论:(0)  加入收藏
如何编写wordpress的robots.txt文件【robots.txt文件编写规则】不论我们SEO站长用什么建站程序,都应该了解掌握robots文件的编写规则和格式,那么robots文件的格式规则是怎样的...【详细内容】
2019-11-03  Tags: robots.txt  点击:(85)  评论:(0)  加入收藏
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 Robo...【详细内容】
2019-09-18  Tags: robots.txt  点击:(169)  评论:(0)  加入收藏
什么是robots文件robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包...【详细内容】
2019-08-20  Tags: robots.txt  点击:(185)  评论:(0)  加入收藏
什么情况下要设置禁止搜索引擎抓取自己的网站呢?公司内部测试的网站,或者内部网,或者后台登录的页面,肯定不希望被外面的人搜索到,所以要禁止搜索引擎抓取。还有在我们的网站还...【详细内容】
2019-08-07  Tags: robots.txt  点击:(374)  评论:(0)  加入收藏
Robots文件是每个网站做优化时必做的文件!它必须放置在网站的根目录下面,它的作用是规定搜索引擎是否可以访问我的网站及规定具体访问哪些页面的文件。这样的话我们网站中很多...【详细内容】
2019-07-03  Tags: robots.txt  点击:(389)  评论:(0)  加入收藏
外媒 VentureBeat 报道称,谷歌希望将发展数十年的 robots.txt 解析器开源,以推动 REP 成为搜索引擎爬虫的行业标准。机器人排除协议(REP)是荷兰软件工程师 Martijn Koster 于 19...【详细内容】
2019-07-02  Tags: robots.txt  点击:(321)  评论:(0)  加入收藏
▌简易百科推荐
今天我们来聊一下北京地区的《ICP经营许可证》有多好办,现在的互联网上提供的商机越来越多,增值电信业务十分火爆,企业通过互联网突破地域的限制,把公司产品卖到更远的地方,同时...【详细内容】
2021-12-17  梦想理应飞翔Yy    Tags:《ICP经营许可证》   点击:(12)  评论:(0)  加入收藏
转自: https://blog.kermsite.com/p/blog-intro/由于格式问题,部分链接、表格可能会失效,若失效请访问原文此专题将详细介绍如何从零开始搭建一个个人博客。Dec 01, 2021阅读时...【详细内容】
2021-12-17  LaLiLi    Tags:个人博客   点击:(7)  评论:(0)  加入收藏
SP证是第二类增值电信业务经营许可证的简称。分为全网SP证和地网SP证。申请经营许可证是在工信部申请,全网SP经营许可证的有效期是5年,全网SP许可证在工信部办理全网SP续期,地...【详细内容】
2021-11-01  s陳述    Tags:sp证书   点击:(39)  评论:(0)  加入收藏
现在还有许多人不知道EDI许可证是什么东西今天我就来给大家讲解一下.EDI许可证就是一种增值电信业务经营许可证。是针对在线数据处理和交易处理业务需求的专业资格证书。 《...【详细内容】
2021-10-28  soberXx    Tags:edi许可证   点击:(75)  评论:(0)  加入收藏
元素的化学概念,如周期表中的化学元素,一切物质都是由元素构成的。对程序员而言,网站建设制作就是代码构成网站。企业网站设计者也收集了各种各样的元素,但并非所有元素都需要运...【详细内容】
2021-10-26  南宁云尚网络    Tags:企业网站   点击:(40)  评论:(0)  加入收藏
在运营网站的过程中,有一件不可忽略的事情。那就是网站上线之前需要完成 ICP 备案。说到这里,很多朋友就提出疑问了~· 什么是 ICP 备案呢?· ICP 备案需要哪些材...【详细内容】
2021-10-22  启测云    Tags:ICP备案   点击:(46)  评论:(0)  加入收藏
最近有朋友问我,我公司有外资就不能申请ICP许可证了么?外资的定义是什么?其实是可以的,但有一个特定条件必须满足,外资公司是指公司有外资股东,比如香港、加拿大、美国、韩国等等,...【详细内容】
2021-10-21  小白速看Z    Tags:ICP   点击:(51)  评论:(0)  加入收藏
自互联网出现以来,超文本传输协议http协议被广泛用于在Web浏览器和网站服务器之间传递信息,但随着互联网的发展,另一种协议——https出现,并与http一同服务于这个互联...【详细内容】
2021-10-20  我是FEIYA    Tags:https   点击:(44)  评论:(0)  加入收藏
Grafana Loki 是一个日志聚合工具,它是功能齐全的日志堆栈的核心。图片来自 包图网先看看结果有多轻量吧: Loki 是一个为有效保存日志数据而优化的数据存储。日志数据的高效索...【详细内容】
2021-09-14    51CTO  Tags:Loki日志   点击:(97)  评论:(0)  加入收藏
背景最近做微信小程序开发比较多,大家知道线上微信小程序为了安全起见,要求后端通信协议必须是HTTPS,这就要求需要安装证书。为了测试预发布线上环境,特地买了个最便宜的域名,为...【详细内容】
2021-09-14  小李子说程序    Tags:HTTPS证书   点击:(125)  评论:(0)  加入收藏
最新更新
栏目热门
栏目头条