您当前的位置:首页 > 电脑百科 > 站长技术 > 网站

robots.txt是什么,robots协议怎么写配置,robots文件怎么写,robots协议的用途

时间:2023-12-20 10:17:56  来源:  作者:森福壹贰叁

详解robots协议文件的相关问题,主要谈谈robots.txt是什么、配置怎么写、有什么作用;以及,怎么给自己的网站合理配置robots.txt规则。

robots.txt是什么,robots协议怎么写配置,robots文件怎么写,robots协议的用途

什么是robots.txt协议

简单地说,robots协议就是网站空间目录里的一个txt文件。通过在这个文件里添加相应的规则内容,我们可以规定搜索引擎蜘蛛如何爬取网站页面。robots.txt是目前几乎所有主流搜索引擎共同遵守的一项互联网准则,让网站管理者可以掌控自己网站在搜索引擎上的展现。实质上,robots的规则主要就是两种指令:Allow指令(允许抓取)和 Disallow指令(禁止抓取)。

也就是说,robots.txt协议文件其实是给搜索引擎准备的。搜索引擎比如谷歌的蜘蛛来到网站,首先就会检查网站的robots规则,然后根据这些规则的指导进行爬取工作。所以,一般网站都是需要配置合适的robots规则,尤其是网站的某些类目或者页面不想被搜索引擎抓取到。如果网站没有配置robots文件,那就相当于默认全站可抓取。

robots.txt的指令规则

上文已经提到,robots.txt主要指令就是Allow和Disallow这两个。但,要组成一个完整的robots配置,还需要有其他指令的加入。接下来,我们逐一看下robots.txt的指令规则。

User-agent指令

任何指令都要有命令对象,robots规则指令也是如此。可能有人会疑惑:命令的对象不就是搜索引擎爬虫吗?是的,robots.txt就是指导这些爬虫的抓取;但是,全球的搜索引擎这么多,如果有些内容你就想给谷歌抓取,而不想给百度抓取,那怎么办呢?所以,User-agent指令还是必不可少的,通过它我们可以规定robots规则的限定对象。比如,对象限定为谷歌,就可以用:User-agent: googlebot,Googlebot就是谷歌的爬虫代号,其他主要的搜索引擎爬虫代号还有:

搜索引擎蜘蛛代号谷歌Googlebot百度BAIduspider360搜索360Spider搜狗Sogou News Spider必应bingbotMSNmsnbot

一个搜索引擎可能不止有一种蜘蛛,比如谷歌,除了常见的Googlebot外,它还有Googlebot-Image之类的爬虫,专门用于爬取图片等内容。如果你想了解所有搜索引擎的爬虫代号,可以查看这里。

Disallow指令

Disallow指令就是规定网站中哪些内容不想被搜索引擎抓取。举几个例子:

Disallow: /folder/(folder这个网站目录,包括里面所有页面不要抓取)

Disallow: /file.html(不要抓取网站中file.html这个页面)

Disallow: /image.png(不要抓取image.png这个图片)

Allow指令

和Disallow指令的作用相反,Allow指令告诉搜索引擎哪些页面可以被抓取,这个指令一般是配合着Disallow指令发挥作用,毕竟如果没有Disallow,那就已经默认可以抓取了。同样,举个例子:

User-agent: * (指令针对所有搜索引擎,*代表所有)

Disallow: /photos(不允许抓取photos这个目录内容)

Allow: /photos/car.jpg(只有car.jpg这个图片可以抓取)

注意:括号里都是讲解内容,真正使用这些指令规则时,不能加括号。

Crawl-delay指令

这个指令可以规定搜索引擎抓取页面前需要等待一段时间。比如:Crawl-delay: 100,意味着需要等待100毫秒。这个指令一般用不到,而且谷歌不会执行这个指令。

Sitemap指令

Sitemap指令就是告诉搜索引擎网站的Sitemap站点地图在什么位置(一般位于网站根目录中)。比如,我们网站的robots.txt文件就含有sitemap指令,大家可以自行查看:www.yundianseo.com/robots.txt

robots.txt是什么,robots协议怎么写配置,robots文件怎么写,robots协议的用途

只有Google,Ask,Bing和Yahoo支持此项指令。

模糊匹配指令

在实际应用中,有时候我们需要制定某类文件或者页面不被谷歌等搜索引擎抓取。这时,就需要应用到模糊匹配指令。robots规则中的匹配指令是两个符号:*和$。符号*前面也有说过,是代表全部的意思;符号$则是用于结尾,代表符合结尾格式的地址。例如:Disallow: /*.gif$,表示不抓取网站中结尾格式为gif的所有文件。

常用的robots.txt配置

ROBOTS.TXT规则

功能说明

User-agent: *

Disallow: /

禁止所有搜索引擎抓取网站任何页面;一般用于网站尚未建设完成时使用,屏蔽搜索引擎抓取。User-agent: *

Disallow: /abc/

禁止所有搜索引擎抓取abc这个目录内容;比如,wordPress/ target=_blank class=infotextkey>WordPress网站需要禁止抓取wp-admin这个管理登录的目录。另外,不要使用robots规则限定你的隐私内容,仍然有可能泄露。隐私页面最好还是设置为普通用户不可见最为安全。User-agent: Googlebot

Allow: /

User-agent: *

Disallow: /

只允许谷歌蜘蛛爬取网站,其他搜索引擎禁止爬取。User-agent: Googlebot

Disallow: /

User-agent: *

Allow: /

除了谷歌不可以抓取,其他搜索引擎均可爬取网站。User-agent: *

Disallow: /abc.html

禁止所有搜索引擎抓取abc这个html页面;此规则可用于禁止抓取网站中某个页面。User-agent: *

Disallow: /images/abc.jpg

禁止所有搜索引擎抓取网站images目录下的abc这个jpg图片。禁止抓取某个页面或者图片等文件,需要正确填写所在位置。User-agent: Googlebot

Disallow: /*xls$

禁止谷歌抓取网站中所有以xls为结尾格式的文件。

使用robots.txt的注意事项

  • 如果使用robots.txt协议,首先一点就是确保配置正确,不要影响到正常内容的抓取。网站如果长时间没被谷歌收录,有可能就是因为robots.txt配置错误导致的。
  • 为了方便搜索引擎查找、识别,robots.txt一般放在网站的根目录中最好,也就是空间最开始的文件目录里。
  • robots文件,必须是txt格式结尾,并且全称为robots.txt,不要大些首字母变成Robots.txt或者其他任何形式。
  • robots.txt规则主流搜索引擎都会遵守,但不排除有些网站或者软件的爬虫会忽视这个文件,比如一些内容采集软件就不会遵守规则,所以不要指望robots规则可以把这类软件拦截在外。
  • 如果有些页面信息是比较私人的或者含有隐私,不要把它添加到robots文件内容中,虽然搜索引擎不会抓取,但访客是可以直接打开robots文件,查看到该页面地址的。
  • 如果一个网站有二级域名,那么二级域名的网站也是需要配置robots.txt文件的,如果它含有不想被抓取的内容,主域名配置的robots文件对二级域名不起作用。
  • robots.txt最好含有sitemap地址,能够帮助搜索引擎更快地找到网站的站点地图。站点地图利于搜索引擎的抓取和收录,网站如果还没有sitemap,可以参照此篇文章进行创建:Sitemap站点地图生成工具

如何制作robots.txt文件

制作robots.txt文件的方法很简单:在电脑桌面创建一个txt文本,然后命名为robots即可。书写规则内容时,注意:

  1. 每行一个规则指令,如果是两段规则,中间空一行;
  2. 使用英文输入法,不要使用中文输入法,: 号后面空一格。

示例:

User-agent: *

Disallow: /(第一段)

User-agent: Googlebot

Allow: /(第二段)

如何提交robots.txt给谷歌

网站中已经有了robots.txt文件,可以通过robots测试工具提交给Google,让其尽快识别。打开工具:https://www.google.com/webmasters/tools/robots-testing-tool,选择资源(先得到谷歌站长工具中验证网站所有权):

robots.txt是什么,robots协议怎么写配置,robots文件怎么写,robots协议的用途

测试无误后,点击提交:

robots.txt是什么,robots协议怎么写配置,robots文件怎么写,robots协议的用途

Tags:robots.txt robots协议



Tags:robots.txt   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
解析网站写入Robots.txt文件之后会被搜索引擎蜘蛛收录的原因
在网络世界的海洋中,搜索引擎蜘蛛如同辛勤的渔夫,不断捕捉着各种有价值的信息,以便为用户提供更加精准的搜索结果。而Robots.txt文件,就像是渔夫们遵循的捕鱼规则,它告诉蜘蛛哪些...【详细内容】
2024-01-04  Search: robots.txt  点击:(64)  评论:(0)  加入收藏
robots.txt是什么,robots协议怎么写配置,robots文件怎么写,robots协议的用途
详解robots协议文件的相关问题,主要谈谈robots.txt是什么、配置怎么写、有什么作用;以及,怎么给自己的网站合理配置robots.txt规则。什么是robots.txt协议简单地说,robots协议就...【详细内容】
2023-12-20  Search: robots.txt  点击:(108)  评论:(0)  加入收藏
robots.txt文件的作用和写法
robots.txt协议是网站和搜索引擎的协议。作为网站优化人员,一定要会看robots文件,也要会写robots文件,那么,robots.txt文件有什么作用?robots.txt文件的作用有:(1)引导搜索引擎蜘蛛...【详细内容】
2020-10-12  Search: robots.txt  点击:(411)  评论:(0)  加入收藏
网站优化的robots.txt使用
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,假如存在,搜索机器人就会按照该文件...【详细内容】
2020-01-08  Search: robots.txt  点击:(360)  评论:(0)  加入收藏
一文教你如何编写wordpress的robots.txt文件
如何编写wordpress的robots.txt文件【robots.txt文件编写规则】不论我们SEO站长用什么建站程序,都应该了解掌握robots文件的编写规则和格式,那么robots文件的格式规则是怎样的...【详细内容】
2019-11-03  Search: robots.txt  点击:(729)  评论:(0)  加入收藏
robots.txt文件的作用及写法
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 Robo...【详细内容】
2019-09-18  Search: robots.txt  点击:(871)  评论:(0)  加入收藏
robots.txt文件的格式?
什么是robots文件robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包...【详细内容】
2019-08-20  Search: robots.txt  点击:(873)  评论:(0)  加入收藏
robots.txt协议如何设置禁止搜索引擎抓取?
什么情况下要设置禁止搜索引擎抓取自己的网站呢?公司内部测试的网站,或者内部网,或者后台登录的页面,肯定不希望被外面的人搜索到,所以要禁止搜索引擎抓取。还有在我们的网站还...【详细内容】
2019-08-07  Search: robots.txt  点击:(1730)  评论:(0)  加入收藏
要想网站排名靠前,robots.txt文件必须写好!详解robots文件
Robots文件是每个网站做优化时必做的文件!它必须放置在网站的根目录下面,它的作用是规定搜索引擎是否可以访问我的网站及规定具体访问哪些页面的文件。这样的话我们网站中很多...【详细内容】
2019-07-03  Search: robots.txt  点击:(1307)  评论:(0)  加入收藏
谷歌开源robots.txt 欲引领搜索引擎爬虫的行业标准
外媒 VentureBeat 报道称,谷歌希望将发展数十年的 robots.txt 解析器开源,以推动 REP 成为搜索引擎爬虫的行业标准。机器人排除协议(REP)是荷兰软件工程师 Martijn Koster 于 19...【详细内容】
2019-07-02  Search: robots.txt  点击:(1082)  评论:(0)  加入收藏
▌简易百科推荐
访问网站显示不安全是什么原因?怎么解决?
访问网站时显示“不安全”,主要原因以及解决办法: 1.没用HTTPS加密:网站还在用老的HTTP协议,数据传输没加密,容易被人偷看或篡改。解决办法是网站管理员启用HTTPS,也就是给网站装...【详细内容】
2024-04-08  JOYSSL爆爆    Tags:网站   点击:(3)  评论:(0)  加入收藏
SSL证书过期后网站还能正常访问吗
当SSL证书过期后,尽管网站的服务器仍然可以处理请求并提供服务,但是浏览器会在尝试建立安全连接时检测到证书已过期,并显示警告信息告知用户该网站的安全证书已过期。这会严重...【详细内容】
2024-03-27    见方天地  Tags:SSL证书   点击:(11)  评论:(0)  加入收藏
HTTPS网站怎么实现
HTTP协议迁移到HTTPS,以提供更加安全的网络环境并增强用户信任。那么,如何将一个使用HTTP的网站安全升级到HTTPS呢?我们需要理解HTTP和HTTPS的区别。HTTP,即超文本传输协议,是一...【详细内容】
2024-03-27  倏然间    Tags:HTTPS   点击:(6)  评论:(0)  加入收藏
SSL证书即将过期,不更新可以吗?
SSL证书是用来保护网站数据传输安全的重要工具,通过数据加密和身份认证两大功能,为网站提供了一个安全、可信的网络环境。由正规CA机构所颁发的SSL证书都具有一定的使用期限,通...【详细内容】
2024-03-27  帝恩思DNS    Tags:SSL证书   点击:(7)  评论:(0)  加入收藏
网站运营的好与坏主要决定因素是内容与seo优化
在这个信息爆炸的时代,网站如雨后春笋般涌现,如何在众多网站中脱颖而出,吸引更多的访问者,成为了每一个网站运营者关心的问题。我们不禁要问,是什么决定了网站运营的好与坏呢?答案...【详细内容】
2024-03-26  易华合讯    Tags:网站运营   点击:(9)  评论:(0)  加入收藏
网站制作不再难:小白也能上手的建站教程
在互联网高速发展的时代,网站已成为企业、个人展示自身形象和实力的重要窗口。过去,网站制作对于许多人来说是一项技术活,需要专业的知识和经验。但随着技术的进步,现在即便是没...【详细内容】
2024-03-24  一度旭展互联网科技    Tags:网站制作   点击:(5)  评论:(0)  加入收藏
想建个网站赚钱?先来看看这篇建站指南吧
随着互联网的飞速发展,越来越多的人希望通过建立自己的网站来实现创业梦想或者赚取额外的收入。但建站并非一蹴而就的简单事情,它需要综合策划、设计、技术和运营等多方面的知...【详细内容】
2024-03-21  一度旭展互联网科技    Tags:网站   点击:(4)  评论:(0)  加入收藏
个人站长的出路在哪?
个人站长的出路在于不断适应互联网的发展趋势,积极寻求创新和变革。以下是一些个人站长可以考虑的出路: 转型为内容创作者:随着内容营销的兴起,越来越多的企业和个人开始注重内...【详细内容】
2024-02-29    简易百科  Tags:个人站长   点击:(39)  评论:(0)  加入收藏
网络环境和用户需求不断变化,个人站长该怎么办?
个人站长是一个相对特殊的群体,他们通常以个人身份独立运营网站,没有大型企业或组织的支持。由于缺乏资源和大企业的光环,个人站长需要更加注重策略和技巧,才能在竞争激烈的网络...【详细内容】
2024-02-29    简易百科  Tags:个人站长   点击:(33)  评论:(0)  加入收藏
AI时代 个人站长还有出路吗?
AI时代,个人站长依然有出路,但需要进行一些调整和转型。首先,利用AI工具可以帮助个人站长提高效率和产出质量。例如,利用AI进行内容创作、智能推荐、用户画像分析等,可以大大提升...【详细内容】
2024-02-29    简易百科  Tags:个人站长   点击:(41)  评论:(0)  加入收藏
站内最新
站内热门
站内头条