专业做网站的公司都知道,网站做好后需要给网站上传Robots文件,以便于引导搜索引擎的抓取。但也有很多人不知道怎么写robots文件,今天郑州网站建设公司小编就给大家详细的说一下,首先强调一下robots的文件是.txt文本格式的。以下是需要注意的几点:
1.robots文件的后缀必须是.txt;
2.robots文件应该存放在网站的根目录,而且所有字母都必须小写;
3.在写robots文件的时候,User-agent、Disallow、Allow、Sitemap这些词开头第一个字母必须大写,后面的字母则要小写;
4.特别注意,在:后面必须有一个英文状态下的空格。
内容格式如下写:
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC 这里定义是禁止爬寻ABC整个目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
知识扩展:Nofollow 与 Disallow 的区别
Robots 是站点与 spider 沟通的关口,蜘蛛在访问网站之前,首先要找到 robots.txt 协议,通过阅读 robots 决定抓取哪些内容,不抓取哪些内容。当然,这个协议需要搜索引擎各方遵守才行,否则写得再好的 robots.txt 也是白瞎。
disallow 完全禁止某个页面被抓取,也就是不会被收录和传递权重。而 nofollow 是某个链接的属性,一个页面如果有多个链接导入,只要有一个没有带 nofollow,那么它依然会被传递权重。不过一般我们所看到的 robots 里面都是 disallow,如果我们要禁止百度抓取,那么就 user-agent:baiduspider 这样,
如果禁止谷歌抓取,那么就 user-agent:googlebot。而如果要禁止所以搜索引擎抓取 User-agent:* Disallow:/当然,一般网站内容我们都希望抓取,这样可以通过文字标题的长尾关键词引入很多流量。而收录对于网站排名来讲,目前没有什么有力的证据说明这一点。比如淘宝,百度就只收录了一个主页,但是流量和排名大家可以自己看看。而如果你的网站内容是受到版权保护,某些产品介绍,或者是新闻类,但是在别的网站转载过来的,那么即使收录了,如果重复页面太多,对自己的站点依然不好,所以也可以禁止抓取。
网站做好后,robots怎么写?
- 2020-11-11
- 2020-11-04
- 2020-10-28
- 2020-10-20
- 2020-10-16
- 2020-10-10
- 2020-10-09
- 2020-09-04
- 2019-12-28
- 2019-11-25
- 2021-01-01
- 2020-09-24
- 2020-09-11
- 2020-09-04
- 2020-06-29
- 2019-12-30
- 2019-12-23
- 2019-07-11
- 2019-06-20
- 2019-06-20