成功案例 successful case

  专业做网站的公司都知道,网站做好后需要给网站上传Robots文件,以便于引导搜索引擎的抓取。但也有很多人不知道怎么写robots文件,今天郑州网站建设公司小编就给大家详细的说一下,首先强调一下robots的文件是.txt文本格式的。以下是需要注意的几点:画板8

  1.robots文件的后缀必须是.txt;

  2.robots文件应该存放在网站的根目录,而且所有字母都必须小写;

  3.在写robots文件的时候,User-agent、Disallow、Allow、Sitemap这些词开头第一个字母必须大写,后面的字母则要小写;

  4.特别注意,在:后面必须有一个英文状态下的空格。

  内容格式如下写:

  User-agent: *    这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

  Disallow: /require/   这里定义是禁止爬寻require目录下面的目录

  Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

  Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

  Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

  Disallow: /*?* 禁止访问网站中所有的动态页面

  Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件

  User-agent: *   这里的*代表的所有的搜索引擎种类,*是一个通配符

  Allow: /cgi-bin/  这里定义是允许爬寻cgi-bin目录下面的目录

  Allow: /tmp 这里定义是允许爬寻tmp的整个目录

  Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

  Allow: .gif$ 允许抓取网页和gif格式图片

  知识扩展:Nofollow 与 Disallow 的区别

  Robots 是站点与 spider 沟通的关口,蜘蛛在访问网站之前,首先要找到 robots.txt 协议,通过阅读 robots 决定抓取哪些内容,不抓取哪些内容。当然,这个协议需要搜索引擎各方遵守才行,否则写得再好的 robots.txt 也是白瞎。画板4-1

  disallow 完全禁止某个页面被抓取,也就是不会被收录和传递权重。而 nofollow 是某个链接的属性,一个页面如果有多个链接导入,只要有一个没有带 nofollow,那么它依然会被传递权重。不过一般我们所看到的 robots 里面都是 disallow,如果我们要禁止百度抓取,那么就 user-agent:baiduspider 这样,

  如果禁止谷歌抓取,那么就 user-agent:googlebot。而如果要禁止所以搜索引擎抓取  User-agent:* Disallow:/当然,一般网站内容我们都希望抓取,这样可以通过文字标题的长尾关键词引入很多流量。而收录对于网站排名来讲,目前没有什么有力的证据说明这一点。比如淘宝,百度就只收录了一个主页,但是流量和排名大家可以自己看看。而如果你的网站内容是受到版权保护,某些产品介绍,或者是新闻类,但是在别的网站转载过来的,那么即使收录了,如果重复页面太多,对自己的站点依然不好,所以也可以禁止抓取。

网站做好后,robots怎么写?

企业网站
商城网站
定制网站

常见问题 

更多
2022-01-13
2022-01-01

联系我们

总机:0371-67584890    

销售电话:18569914411

公司邮箱:ly@zzlyxxkj.com

技术支持QQ:419287591

地址:河南省郑州市中原区陇海西路98号

 

浏览量:0
创建时间:2019-11-25 16:37
新闻推荐
推荐案例
更多
更多
常见问题
更多