RSS订阅『和佳网络』seo技术分享博客
你现在的位置:首页 / SEO技术分享 / 正文

robots.txt协议的设置和写法

0 SEO技术分享 | 2015年8月25日

 

  robots.txt协议是什么?

  robots协议也就是robots.txt文件,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。需要知道的搜素引擎爬取蜘蛛会首先爬取robots.txt协议文件,根据robots.txt协议的内容来爬取其他网站内容。

  请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

  为什么要设置robots.txt协议?

  1、可以保护网站的安全,有的网站可能有一些页面不想让别人知道,那这个时候就可以用robots.txt协议设置,防止蜘蛛的爬取收录,这样可以保护网站的一些内容的安全。

  2、建站初期有利于网站优化,建站初期的时候,网站还不完善,很多站长不希望搜索引擎蜘蛛爬取网站的内容,所以,这个时候就可以用robots.txt协议,当网站完善好,就可以去掉robots.txt协议,这样有利于网站的优化,从一开始就给百度蜘蛛一个好的印象。

  3、robots.txt节省流量,网站有些内容不必要被蜘蛛爬取的,如禁止js,css等文件夹,里面的内容都是页面特效有关的,不是网站的内容部分,对搜索引擎也没啥么好处,禁止又何妨。

  robots.txt协议如何设置呢?

  robots.txt语句:

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

  Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录

  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

  Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

  Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录

  Allow: /tmp 这里定义是允许爬寻tmp的整个目录

  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

  Allow: .gif$ 允许抓取网页和gif格式图片 Sitemap: 网站地图 告诉爬虫这个页面是网站地图

  robots.txt写法举例:

  1、禁止所有搜索引擎访问网站的所有部分

  User-agent: *

  Disallow: /

  2、禁止百度索引你的网站

  User-agent: Baiduspider

  Disallow: /

  3、禁止Google索引你的网站

  User-agent: Googlebot

  Disallow: /

  4、禁止除Google外的一切搜索引擎索引你的网站

  User-agent: Googlebot

  Disallow:

  User-agent: *

  Disallow: /

  5、禁止除百度外的一切搜索引擎索引你的网站

  User-agent: Baiduspider

  Disallow:

  User-agent: *

  Disallow: /

  6、禁止蜘蛛访问某个目录

  (例如禁止admin\css\images被索引)

  User-agent: *

  Disallow: /css/

  Disallow: /admin/

  Disallow: /images/

  7、允许访问某个目录中的某些特定网址

  User-agent: *

  Allow: /css/my

  Allow: /admin/html

  Allow: /images/index

  Disallow: /css/

  Disallow: /admin/

  Disallow: /images/

  在书写写这些语句的时候尤其注意的一点是冒号(:)和( /) 之间要有一个空格符,如果这个空格没有加的话,是不能起到作用的,robots.txt文件一般放在网站的根目录下,而且命名必须是robots.txt。

  在屏蔽目录的时候,注意,这里如果是阻止抓取某目录的话目录名字一定要注意“/”,不带“/”表示的是阻止访问这个目录页面和目录下的页面,而带上“/”则表示进阻止目录下的内容页面,这两点要分清楚。

  为了让搜索引擎更快的收录我们的内页,我们一般都会做一个百度地图或者谷歌地图,那么,Sitemap:+网站地图,这个命令就可以快速的引导搜索引擎蜘蛛来到你的地图页面对网站内页进行抓取。当网站的死链接过多处理非常麻烦的时候,我们可以利用robots来屏蔽这些页面,这样就可以避免网站因为死链接被百度降权。

文章如需转载请注明:转载自:【河北保定SEO|网站制作|百度排名推广服务】

推荐您阅读更多有关于“ robots.txt写法大全   ”的文章

上一篇:【关键词】的选择设置和一些常见问题下一篇:【SEO工具分享】—新站简单快速增加外链的SEO工具

猜你喜欢

评论列表:

网站分类
最近发表
Tags列表