总结实战robots文件需要注意的各个方面-SEO优化-28推论坛

发布时间:2012年02月18日 / 分类:网络推广 / 22,553 次围观 / 2 次吐槽

平时做站的过程中,为了集中权重或者平衡分配权重,都会使用robots文件。这个文件虽然只是一个简单的记事本,但是里边的内容却能影响网站的整体收录情况。这个文件看上去很简单,但在实际过程中有很多站长不知道如何合理的书写自己网站的robots文件,也有的怕出错误,干脆就没写。所以结合这些情况,和大家总结下在实际中robots文件应该如何正确的书写。

  想要写好这个文件,必须注意几个方面,常见的是它的格式,一些通配符的使用,搜索引擎蜘蛛的分类以及一些其它的常见错误等。只有先把这些问题搞清楚了,才能写出正确、符合自己网站的robots文件。好了,开始今天的内容,欢迎大家指正。

  robots作用:用一句简单的话讲,它就是一个协议,告诉搜索引擎哪些内容可以爬行收录,哪些不可以爬行收录,从而达到简单控制网站权重的目的。当搜索引擎访问一个网站时,首先就看根目录下有没有一个robots.txt纯文本文件,如果有的话,就会遵循上边的协议,不会爬行哪些被禁止的页面,而没有被禁止或者robots文件为空时,搜索引擎会默认访问所有的文件。顺便提一下,如果网站没有robots文件,那么最好做一个放在根目录中,即使里边为空的,也对搜索引擎有帮助。

  格式要小心:以前我遇到过因为格式的问题而导致网站不收录了的现象,尤其是禁止收录的使用。在robots文件中,最常用的就是/的使用,这个/表示网站的根目录,如果在disallow后边加上这个/的话,那么就表示禁止搜索引擎抓取任何内容。常见的格式如下:

  user-agent:*

  disallow:/

  这个内容表示禁止搜索引擎抓取所有的内容,如果想要所有的全部收录,那么只需要把disallow变成allow就行了。

  通配符:有时网站有很多重复内容,比如一些b2c网站的排序功能,打印功能,分页功能等,这些并不需要被抓取,因此在robots中就需要使用通配符。常见的通配符就是*,它代表了所有的搜索引擎。$则匹配url结尾的字符,比如想要搜索引擎抓取html为后缀的所有文件,那么就可以这样写:

  user-agent:*

  allow:.html$

  如果是禁止搜索引擎抓取所有html页面,则可以这样写:

  user-agent:*

  disallow:/*.html

  不用蜘蛛分类:不同的搜索引擎一般有不同的蜘蛛,在robots中也需要对搜索引擎的蜘蛛进行定义,如果需要全部搜索引擎榨取或者不榨取,那么使用上边提的通配符*就可以了。这里和大家分享下不同搜索引擎的不同蜘蛛。百度蜘蛛是baiduspider,google蜘蛛则是googlebot,现在一般用这两个的比较多些,除此之外,搜搜和搜狗蜘蛛也类似于百度蜘蛛,用到的地方不是太多。一般情况下,主流的搜索引擎都支持robots文件。

  应用实例和注意事项:在robots中每一行必须对应一个项目,如果有两个或者多个禁止收录的,那么必须分开写,一行一个,不能同时放在一行中,否则就不会被识别。如果是想让某一个搜索引擎不抓取,而其它所有的搜索引擎都抓取的话,要分开写两个user-agent和disallow。另外如果允许一个文件夹的部分被抓取,部分被禁止抓取的话,那么要disallow与allow混合使用,比如seo文件夹中的aa文件夹不被抓取,那么就可以这样写:

  user-agent:*

  disallow:/seo/

  allow:/seo/aa/

  另外,还可以在robots文件中写上网站地图的位置,这样更加利于搜索引擎的爬行和抓取。比如sitemap:xml地图位置。这样把需要收录的文件通过xml展现给搜索引擎,能够加快收录。不过需要指出的是并不是所有的文件经过robots屏蔽后就不出现在搜索结果中,如果这个网页有导入链接,那么用户还是能从搜索结果中查询到这个页面,因此想要完全不出现,则要配合meta robots标签来实现。这个以后再和大家分享。

  好了,本文到这里,如果还有其它不懂的地方,欢迎和我交流。本文来自:趣播网

标签:没有标签呢

赞 (0) 本文链接: http://www.xiangguoqi.cn/read/620.html [复制分享 ](转载时请保留 )



↑上一篇:SugarCRM——世格客户关系管理软件
↓下一篇:如何让网站推广变得更容易 无觅关联推荐,快速提升流量
热评文章
默认:长尾词库
猜你喜欢
文章分类
最新文章
最近回复
    岁月痕迹