建站资讯
news

企业网站制作:robots文件的作用和设置细节

发布时间:2021-03-05 11:00:04   

Robots文件放在网络站点的根目录下,主要用于告知在seo能够在这个文件中说明该网络站点中不想被搜索引擎收录的部分,或者指定搜索引擎只收录特定的部分。
  一、robots.txt文件的作用:
  1、屏蔽网络站点内的死链接。
  2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。
  3、阻止搜索引擎索引网络站点隐私性的内容。
  网络站点中重复的内容、页面或者404信息过多,搜索引擎蜘蛛就会认为该网络站点价值较低,从而减少对该网络站点的“印象分”,这就是我们经常听到的“减少权重”,因此通过创建robots.txt文件给蜘蛛指路是很有必要的。
  二、经常运用到robots文件的情景概况
  网络站点升级
  老版本的很多页面在新版本网络站点中去掉了,在这种情景概况下,能够通过 Robots文件告诉蜘蛛不再抓取这些已经去掉的页面。
  网络站点存在很多重复的内容
  例如一个网络站点同时存在动态页面和已经经过静态化处理的页面,这些页面在内容上都是完全重复的内容,为明白决重复的疑问,能够在Robots文件中禁止蜘蛛抓取动态页面。
  网络站点内部有些内容不便于宣布发表,但是需要可以内部查阅。遇到这种情景概况,能够在Robots中告诉蜘蛛不要抓取。
  三、robots.txt文件关注事项:
  1、必须放置在一个站点的根目录下;
  2、文件名必须全部小写;
  3、比较好是UTF-8编码。
  四、robots.txt写作语法
  可以所有的robot访问 
  User-agent: * 
  Disallow: 
  或者也能够建一个空文件 "/robots.txt" 
  禁止所有搜索引擎访问网络站点的任何部分 
  User-agent: * 
  Disallow: / 
  禁止所有搜索引擎访问网络站点的几个部分(下例中的01、02目录) 
  User-agent: * 
  Disallow: /01/ 
  Disallow: /02/ 
  我们来看一个robots.txt范例:互联网http://www.XXX.com/
  访问以上具体地址,我们能够见到robots.txt的具体内容如下:

      User-agent: *

      Disallow: 

       Disallow: /bin/

       Disallow: /adminbase/

       Sitemap: http://www.XXX.com/sitemap.xml
  禁止某个搜索引擎的访问(下例中的BadBot) 
  User-agent: BadBot 
  Disallow: / 
  只可以某个搜索引擎的访问(下例中的Crawler) 
  User-agent: Crawler 
  Disallow:
 

相关内容: