成功案例 successful case

　　专业做网站的公司都知道，网站做好后需要给网站上传Robots文件，以便于引导搜索引擎的抓取。但也有很多人不知道怎么写robots文件，今天郑州网站建设公司小编就给大家详细的说一下，首先强调一下robots的文件是.txt文本格式的。以下是需要注意的几点：画板8

　　1.robots文件的后缀必须是.txt;

　　2.robots文件应该存放在网站的根目录，而且所有字母都必须小写;

　　3.在写robots文件的时候，User-agent、Disallow、Allow、Sitemap这些词开头第一个字母必须大写，后面的字母则要小写;

　　4.特别注意，在:后面必须有一个英文状态下的空格。

　　内容格式如下写：

　　User-agent: * 　　这里的*代表的所有的搜索引擎种类，*是一个通配符

　　Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

　　Disallow: /require/ 　这里定义是禁止爬寻require目录下面的目录

　　Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

　　Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

　　Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

　　Disallow: /*?* 禁止访问网站中所有的动态页面

　　Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片

　　Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件

　　User-agent: * 　　这里的*代表的所有的搜索引擎种类，*是一个通配符

　　Allow: /cgi-bin/　　这里定义是允许爬寻cgi-bin目录下面的目录

　　Allow: /tmp 这里定义是允许爬寻tmp的整个目录

　　Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

　　Allow: .gif$ 允许抓取网页和gif格式图片

　　知识扩展：Nofollow 与 Disallow 的区别

　　Robots 是站点与 spider 沟通的关口，蜘蛛在访问网站之前，首先要找到 robots.txt 协议，通过阅读 robots 决定抓取哪些内容，不抓取哪些内容。当然，这个协议需要搜索引擎各方遵守才行，否则写得再好的 robots.txt 也是白瞎。画板4-1

　　disallow 完全禁止某个页面被抓取，也就是不会被收录和传递权重。而 nofollow 是某个链接的属性，一个页面如果有多个链接导入，只要有一个没有带 nofollow，那么它依然会被传递权重。不过一般我们所看到的 robots 里面都是 disallow，如果我们要禁止百度抓取，那么就 user-agent：baiduspider 这样，

　　如果禁止谷歌抓取，那么就 user-agent：googlebot。而如果要禁止所以搜索引擎抓取　　User-agent：* Disallow：/当然，一般网站内容我们都希望抓取，这样可以通过文字标题的长尾关键词引入很多流量。而收录对于网站排名来讲，目前没有什么有力的证据说明这一点。比如淘宝，百度就只收录了一个主页，但是流量和排名大家可以自己看看。而如果你的网站内容是受到版权保护，某些产品介绍，或者是新闻类，但是在别的网站转载过来的，那么即使收录了，如果重复页面太多，对自己的站点依然不好，所以也可以禁止抓取。

新闻中心

关注新闻资讯

助您成为网络营销专家