robots文件，robots文件的作用！

本文目录一览：

Robots.txt 是个纯文本文件，当一个搜索robot访问一个站点时，他首先爬行来检查该站点根目录下是否存在robot.txt，如果存在，根据文件内容来确定访问范围，如果没有（为Null），搜索robot就沿着链接抓取。

spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。

robots.txt文件包含一条或更多的记录，这些记录通过空行分开(以CR，CR/NL， or NL作为结束符)，每一条记录的格式如下所示： field：optionalspacevalueoptionalspace。

蜘蛛在爬去网站页面之前，会先去访问网站根目录下面的一个文件，就是robots.txt。这个文件其实就是给“蜘蛛”的规则，如果没有这个文件，蜘蛛会认为你的网站同意全部抓取网页。

robots.txt是什么？我们都知道txt后缀的文件是纯文本文档，robots是机器人的意思，所以顾名思义，robots.txt文件也就是给搜索引擎蜘蛛这个机器人看的纯文本文件。

robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

robots.txt文件是一个文本文件，使用任何一个常见的文本编辑器，比如Windows系统自带的Notepad，就可以创建和编辑它。robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

robots是一个协议，是建立在网站根目录下的一个以（robots.txt）结尾的文本文件，对搜索引擎蜘蛛的一种限制指令。

robot”，所以在该文件中不能有 “Disallow： /tmp/*” or “Disallow： *.gif ”这样的记录出现。另外，robots.txt主要作用是保障网络安全与网站隐私，百度蜘蛛遵循robots.txt协议。

robots.txt 也就 robots协议，是搜索引擎中访问网站的时候要查看的第一个文件。通过robots.txt文件告诉搜索引擎蜘蛛哪些页面可以抓取，哪些页面不能抓取。

1、Allow： .htm$ 仅允许访问以.htm为后缀的URL。

2、Disallow： /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以.htm为后缀的URL(包含子目录)。

3、//第1种 //使用$限制访问url，仅允许访问以.html为后缀的URL。

4、我们有些会员信息，网站程序URL等都不希望被搜索引擎抓取，那么也可以用robots.txt进行屏蔽。

5、URL中能含有关键词最好，英文比较合适，如SEO，中文一般不做这个优化。文章页URL，可以在栏目页URL后再加一级(树形结构)，也可以直接是域名后一级(扁平式)。

6、屏蔽所有蜘蛛抓取abc/article代码是：User-Agent：Disallow： /article 如果只是文章对应的URL变了，而文章内容没变，最好使用301，。

1、robot的意思是：机器人。读音：英［r]，美［robɑt]。释义：n.机器人；遥控设备，自动机械；机械般工作的人。

2、robot的意思是机器人。机器人（Robot）是自动执行工作的机器装置。它既可以接受人类指挥，又可以运行预先编排的程序，也可以根据以人工智能技术制定的原则纲领行动。

3、robots是英语中的一个词汇，意思是“机器人（们）”。

robots.txt文件查看的话，如果是自己的网站，只要用记事本打开就可以了；如果是别人的网站的robots.txt就需要借助一些工具来查看了。

大概在1070行左右，可以看到系统默认的robots.txt文件的定义规则。按照上面的规则样式来重新编写，将网站需要添加的内容添加到这段代码里面。

robots.txt文件必须驻留在域的根目录，并且必须命名为“robots.txt”。位于子目录中的robots.txt文件无效，因为漫游器只在域的根目录这个文件。例如，：//是有效位置。

User杠agent：Disallow：或者User杠agent：Allow允许所有搜索引擎访问网站的所有部分。Disallow说明允许robot访问该网站的所有url，在robots.txt文件中，至少要有一条Disallow记录访问。

Disallow：说明允许 robot 访问该网站的所有 url，在 /robots.txt 文件中，至少要有一条 Disallow 记录。如果 /robots.txt 不存在或者为空文件，则对于所有的搜索引擎 robot，该网站都是开放的。

禁止所有搜索引擎访问网站的任何部分。用户代理：不允许：/ 允许所有机器人访问用户代理：不允许：(或者可以构建空文件/robots.txt文件)禁止搜索引擎的访问。

robotx.txt是一种用于限制搜索引擎爬虫访问网站的文件。通常，网站管理员可以将不希望搜索引擎访问的内容，包括网站目录下的文件、HTML文件、CSS文件和JaScript文件，添加到robotx.txt文件中。

robots.txt文件的基本语法只有两条，第一条是：User-agent，即搜索引擎蜘蛛的名称；第二条是：Disallow，即要拦截的部分。下面我们看一下撰写基本的robots.txt文件所需要知道的一些语法和作用。

Robots.txr文件是一个纯文本文件，可以告诉蜘蛛哪些页面可以爬取（收录），哪些页面不能爬取。