SEO技术教程学习
网站优化排名推广服务
 您好!欢迎访问柚子SEO! 

怎样写robots.txt robots书写规则注意事项

什么是robots.txt

robots.txt是搜索引擎访问网站的时候要查看的第一个文件,搜索引擎通过robots.txt文件知道哪些文件是可以抓取的,合理设置对seo起到积极作用。

robots.txt

怎样制作robots.txt

建一个robots.txt文本,上传到网站根目录

User-agent: *
Disallow: /404.html
Disallow: /*?*
Sitemap: https://www.youziseo/sitemap.xml
User-agent: * (为*号表示对所有搜索引擎有效)
Disallow: /404.html (禁止抓取404.html)
Disallow: /*?* (禁止抓取动态网页)
Sitemap: https://www.youziseo/sitemap.xml (希望抓取网站地图)
其它未设置的文件都允许抓取

robots.txt详细说明

User-agent: 指定搜索引擎, 例User-Agent:  360Spider 针对360搜索
Allow:允许搜索引擎抓取
Disallow: 不允许搜索引擎抓取
*为通配符
$ 匹配网址的结束字符 

1.禁止所有搜索引擎访问网站的所有内容

User-agent: *
Disallow: /

2.只允许百度访问抓取内容,禁止其它搜索引擎抓取

User-agent: Baiduspider
Allow:/
User-agent: *
Disallow: /

2.需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引

User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/

3.如果我们禁止访问某个目录,但想允许访问目录下的特定网址,比如要访问admin下seo.html。

User-agent: *
Allow: /admin/seo.html
Disallow: /admin/

4.如果我们禁止某个后缀域名,比如禁止seo下以.htm后缀的URL(包含子目录)

robots.txt写法如下:

User-agent: *
Disallow: /seo/*.htm

5.禁止抓取所有网站jpg格式的图片

User-agent: *
Disallow: /.jpg$

robots.txt注意事项

1.优先级

Allow比Disallow优先级更高,从上往下顺序匹配,要先写Allow,例如你要允许抓取/seo/a.html禁止抓取/seo/

正确
User-agent: *
Allow: /seo/a.html
Disallow: /seo/
错误
User-agent: *
Disallow: /seo/  
Allow: /seo/a.html

2.robots.txt可以放哪些内容

robots可以放后台地址、图片地址、下载文件地址、错误链接、重复网页、404页面,你不想被抓取的的内容。

4.你不想让别人知道robots.txt文件屏蔽内容,你可以把目录不用写全。比如你想屏蔽后台admin,你可以这样写:

User-agent: *
Disallow: /ad*/

5.设置robots.txt后,屏蔽页面收录还在。

robots.txt生效时间不是立马生效的,需要蜘蛛抓取后,才会生效,已经收录的页面需要下一个更新周期,才会屏蔽。

总结:robots协议写法有很多,不懂得不要轻易写不然会造成非常严重的后果。写的时候也要注意一定严格按照格式去写,写robots协议一定要注意!!!

赞(1) 打赏
未经允许不得转载:柚子SEO » 怎样写robots.txt robots书写规则注意事项

评论 抢沙发

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏