当前位置：网站首页 > SEO百科 > 正文

网站seo内容优化（robots文件的作用）

作者：king发布时间：2023-11-23分类：SEO百科浏览：34

导读：你真的知道网站robots文件的书写方式以及含义是什么吗？很对站长朋友在对网站开始进行优化之前，会忽略非常重要的一点，就是...

你真的知道网站robots文件的书写方式以及含义是什么吗？

很对站长朋友在对网站开始进行优化之前，会忽略非常重要的一点，就是网站上的robots文件，robots文件的作用是告诉搜索引擎蜘蛛，这个网站上什么内容是可以抓取的，哪些内容是禁止抓取的。当robots文件制作完成之后，放在网站ftp的跟目录之下，就搞定了。那么，robots文件里写的各种内容，都是代表了什么样的含义呢？下面我们就来了解一下吧！

User-agent禁止访问抓取系列：

User-agent: *

这里的*好是通配符，意指所有的搜索引擎都可以抓取，包括百度、搜狗、360等等

Disallow: /

意思是禁止蜘蛛抓取该网站的任何目录

Disallow:/123

意思是禁止蜘蛛抓取该网站的123以及123层级之下的所有内容

Disallow:/123/

意思是禁止蜘蛛抓取123层级之下的所有内容，但是可以抓取123页面的内容

Disallow:/*.png

意思是禁止蜘蛛抓取网站上所有png格式的图片，想要禁止抓取其它格式也是这样书写，比如想要禁止抓取网站jpg格式的图片，书写方式为Disallow:/*.jpg

Disallow:/123/*.png

禁止蜘蛛访问123层次下的png图片，其他格式也是同样的书写方式

Disallow:/*？*

禁止蜘蛛抓取网站上所有的动态url页面

Disallow:/123/*？*

禁止蜘蛛抓取网站上123目录下的所有动态页面，不影响抓取网站123目录中的其它内容

Allow允许抓取访问系列：

Allow的意思是允许蜘蛛访问抓取的意思，在写robots文件的时候一定要注意一件事，就是在书写的时候，一定要将allow放在disallow前面，才能不受disallow的影响，其它的写法参考disallow的书写方式，这里就不凑字数了。

有一点注意事项，大家在使用的时候一定要注意，robots.txt文件名称一定要小写的，不要大写。有了完整的robots文件，搜索引擎在抓取的时候才会更加的方便，利于对网站的提升。

网站SEO优化：快速提升网站页面收录的文件，robots书写规则

我们很多时候感觉网站页面被搜索引擎收录得越多越好，这句话本身没有什么错误，但是我们会发现很多网站页面是我们不需要被收录都被收录了，我们需要搜索引擎收录的页面的反而没有被收录，其实爬虫在爬取我们网站的时间是有限的，怎么样才能在有限的时间爬取我们的更多的页面，我们就要告诉爬虫爬取我们需要它去爬取的内容页面，那么就需要一个robots.txt文本文件。

tobots.txt网站收录协议

什么是robots.txt文件

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索引擎蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

robots.txt文件放置的位置

robots.txt文件放在网站根目录下。搜索引擎蜘蛛访问一个站点时，首先检查该站点根目录下是否存在robots.txt文件，如果搜索引擎蜘蛛找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

robots.txt文件规则

robots.txt规则

该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行,详细情况如下：

User-agent:

该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。

Disallow:

该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问，而"Disallow:/help/"则允许robot访问/help.html，而不能访问/help/index.html。任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

Allow:

该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。例如"Allow:/baidu"允许robot访问/baidu.htm、/baiducom.html、/baidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

robots.txt语法

1.允许所有搜索引擎收录本站信息：

robots.txt为空就可以，什么都不要写。或者

User-agent: *

Disallow:

2. 禁止所有搜索引擎收录网站的某些目录：

User-agent: *

Disallow: /目录名1/

Disallow: /目录名2/

Disallow: /目录名3/

3. 禁止某个搜索引擎收录本站，比如禁止某度收录：

User-agent: Baiduspider