robots.txt是存放在网站根目录下的一个TXT文本文档,它是网站和蜘蛛之间的一个协议(蜘蛛协议),是一个网站与网络爬虫蜘蛛进行沟通的重要文件,网络爬虫spider通过robots.txt对一个网站的访问权限进行控制。
 
    搜索引擎访问一个网站的时候,最先访问的文件就是robots.txt。她告诉搜索引擎蜘蛛,哪些网站页面可以被抓取,哪些禁止抓取。表面来看,这个功能作用有限。从搜索引擎优化的角度来看,可以通过屏蔽页面,达到集中权重的作用,这也是优化人员最为看重的地方。今天青岛网站建设-微时微刻专门讲一讲robots.txt的详细内容,希望能给大家带来一些帮助。
 
 
功能作用:
 
    robots.txt的作用是告诉搜索引擎爬虫,网站的哪些文件夹可以抓取,哪些文件夹不能抓取,从而确保我们网站的隐私内容不会被索引。注释的不是指令的一部分,主要作用是用于网站管理员的查看和阅读,注释以#号开始。既能设置访问权限保护网站安全,也能禁止搜索引擎爬取无效页面,集中权值到主要页面。
 
注意事项:
 
1.robots文件的后缀必须是.txt;
 
2.robots文件应该存放在网站的根目录,而且所有字母都必须小写;
 
3.在写robots文件的时候,User-agent、Disallow、Allow、Sitemap这些词开头第一个字母必须大写,后面的字母则要小写;
 
4.特别注意:后面必须有一个英文状态下的空格。
 
5.robots.txt文件书写需要按照严格格式,包括大小写和空格的使用
 
书写协议:
 
User-agent表示定义哪个搜索引擎,如User-agent:Baiduspider,定义百度蜘蛛。
 
Disallow表示禁止访问。
 
Allow表示运行访问。
 
通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。
 
用User-agent:来定义搜索引擎,其中*表示所有
 
百度蜘蛛名字:Baiduspider,谷歌蜘蛛名字:Googlebot
 
User-agent:*  表示定义所有蜘蛛
 
User-agent: Baiduspider表示自定义百度蜘蛛
 
User-agent: Googlebot表示自定义谷歌蜘蛛
 
写法大全解析:
 
1、允许所有搜索引擎访问
 
  User-agent: *
  Disallow:
  或者
  User-agent: *
  Allow: /
  在这里大家要注意下,可以最直接的建一个空文件 “robots.txt”然后放到网站的根目录。
 
2、禁止所有搜索引擎访问
 
  User-agent: *
  Disallow: /
  或者
  User-agent: *
  allow:
 
3、禁止所有搜索引擎访问网站中的几个部分,在这里我用a、b、c目录来代替
 
  User-agent: *
  Disallow: /a/
  Disallow: /b/
  Disallow: /c/
  如果是允许,则是
  Allow: /a/
  Allow: /b/
  Allow: /c/
 
4、禁止某个搜索引擎的访问,我用w来代替
 
  User-agent: w
  Disallow: /
  或
  User-agent: w
  Disallow: /d/*.htm
  在Disallow:后面加 /d/*.htm的意思是禁止访问/d/目录下的所有以”.htm”为后缀的URL,包含子目录。
 
5、只允许某个搜索引擎的访问,我用e来代替
 
  User-agent: e
  Disallow:
  在Disallow:后面不加任何东西,意思是仅允许e访问该网站。
 
6、使用”$”限制访问url
 
  User-agent: *
  Allow: .htm$
  Disallow: /
  意思是仅允许访问以”.htm”为后缀的URL
 
7、禁止访问网站中所有的动态页面
 
  User-agent: *
  Disallow: /*?*
 
8、禁止搜索引擎F抓取网站上所有图片
 
  User-agent: F
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .gif$
  Disallow: .png$
  Disallow: .bmp$
  意思是只允许引擎抓取网页,禁止抓取任何图片(严格来说,是禁止抓取jpg、jpeg、gif、png、bmp格式的图片。)
 
9、只允许搜索引擎E抓取网页和.gif格式图片
 
  User-agent: E
  Allow: .gif$
  Disallow: .jpg$
  Disallow: .jpeg$
  Disallow: .png$
  Disallow: .bmp$
  意思是只允许抓取网页和gif格式图片,不允许抓取其他格式图片