网站robots.txt文件最详细的写法

编辑:admin

蜘蛛进入网站第一步就是爬行robots.txt文件,根据robots.txt规则告诉爬取蜘蛛哪些可以爬取,哪些不可以爬取。若没设置那么蜘蛛就会默认按照连接顺序抓取。所以robots的重要性不言而喻,重庆SEO外包就来为大家讲解下网站robots.txt文件最详细的写法

  首先要禁止蜘蛛爬行没有价值的文件,例如:附件、程序脚本、后期地址、数据库文件、演示表、模板文件等,这些文件会增加服务器的负担,消耗流量,增加无用日志。相反网站地图这类好东西要在robots.txt文件写进去,让蜘蛛全力的爬行和抓取,增加更多快照。重庆SEO外包的网站都是自己填写robots规则,所以基础的代码含义要先了解。

robots
一、robots.txt基本含义
1、robots.txt的关键语法
 a.User-agent: 一般填写*表示所有均可爬取
 b.Disallow: 禁止收录的页面
 c.Allow: 允许访问的网址
 d.“*” : 通配符—匹配0或多个任意字符
 e.“$” : 匹配行结束符
 f.“#” : 注释—说明性的文字,不写也可
 g.Googlebot: 谷歌蜘蛛
 h.Baiduspider: 百度蜘蛛
 i.目录、网址的写法:都以以正斜线 (/) 开头。

2、robots.txt的具体用法
   允许所有的robot访问
  User-agent: *
  Disallow:
  或者
  User-agent: *
  Allow: /

3、仅禁止某个搜索引擎访问您的网站,如:Baiduspider。
  User-agent: Baiduspider
  Disallow: /

4、仅允许某个搜索引擎访问您的网站,如:Baiduspider
  User-agent: Baiduspider
  Disallow:
  User-agent: *
  Disallow: /

5、禁止访问特定目录
  User-agent: *
  Disallow: /admin/
  Disallow: /css/
  Disallow:

二、robots.txt几个技巧分享
1、 User-agent: *
  Disallow: /sitemap/(禁止蜘蛛抓取 文本网页)
    用robots屏蔽网站重复页

2、用robots禁止后台登录信息
  User-agent: *
  Disallow: /admin/ (禁止蜘蛛抓取admin目录下所有文件)

3、屏蔽图片链接,防止其他网站盗取链接,避免严重消耗流量
  User-agent: *
  Disallow: .jpg$

4、录入网站地图,让搜素引擎全面抓取
Sitemap: https://www.aakuu.com/sitemap.xml

文章作者:优化狮

文章标题:网站robots.txt文件最详细的写法

本文链接:https://www.aakuu.com/zhoubian/39.html