善用 robots.txt 优化 WordPress 博客
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。via 维基百科
也许有朋友说,我巴不得搜索引擎多爬些呢,还禁用?事实上,善用robots.txt,可以简单但非常有效的对博客进行优化,我曾搜索了一些关于wordpress 博客 robots.txt写法的文章,但是众说纷纭,有的文章中说一套,可是自己的robot.txt却是另外的写法,实在让人难以信服。无奈之下,只有自己慢慢尝试,下面就望月的robots.txt的写法说一说自己的体会。
我的robots.txt的写法如下:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback
Disallow: /comments
Sitemap: https://wangyue.tech/sitemap.xml
Sitemap: https://wangyue.tech/sitemap.xml.gz
简单说明一下,这个robots.txt文件允许博客被所有搜索引擎收录,但是不允许蜘蛛访问cgi-bin文件夹以及wp开头的文件,这主要是为了博客的安全。
此外,不允许搜索引擎蜘蛛访问feed及comments的feed文件,主要是为了避免重复内容,这一点百度尤其重视,将wordpress 的很多页面视为重复内容,这也是wordpress博客在百度中排名不高的原因之一。事实上,在禁用了feed文件之后,我的博客来自百度的流量由之前的几乎为0增长到现在的每天300-500IP。
禁止访问trackback和comments是为了避免垃圾评论和垃圾引用。
之所以有两个sitemap文件,是因为我启用了Google XML Sitemaps 插件,所以将两个sitemap一并列了出来。
robots.txt协议并不是一个规范,而只是约定俗成的,所以,每个搜索引擎遵守robots.txt的方式也不一样,在你修改robots.txt文件时,可以用Google网站管理员工具或者Robots.txt Checker检测一下robots.txt是否符合规范。
我不是SEOer,对SEO也几乎不懂,所以,只是列出自己的写法和想法以及实际经历,希望高手指点。
受教了,我马上试试
没看到feed 、comments、trackback这几个目录啊,是不是我理解有误?
@盆地:我看了一下,你的feed目录已经重定向到了Google烧制的feed地址,至于trackback则不是直接目录,比如我使用了sharethis插件,就产生了许多trackback地址。
知道,但没有用过。现在也懒的折腾了
WP 没有 cgi-bin 吧。
最好再加个 /?p=
@睡到自然醒blog:这个要看链接结构吧。
@望月:呵呵,也是,我一开始用了动态地址一段时间,还是加了这一条。
确实要使用一下robots文件。使用以后发现这个还是比较好的。
Disallow: /wp- 图片全部不要了?
@Denis:文章的图片还是在的。
图片的地址都在 wp- 下,你 对所有搜索引擎 disallow wp- 这样图片搜索引擎比如 Google image search 不会索引你的图片的,除非你的图片不放在 wp-content/uploads
@Denis:我的图片基本上都是通过picsa和flicker的外链,不过这的确是个问题,是否加上一句#Allow: /wp-content/uploads/
这个东东的确是各说各有理,真不知道哪个是最好的!!实践出真知,呵呵!!
这个还真不会弄,我的什么都没限制
效果这么明显啊~~这么神奇
我的robots.txt 里有以下内容,站长请问这是什么意思?我不看完你的文章还是不懂
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
是用来供GOOGLE ADSENSE索引的。
那z-blog的咋弄啊?????
😮 也差不多的,你找出相关的目录即可。
参考学习当中....
ASCII编码的文本文件 😯
和我的一样!
博主你好。我的博客程序由于放在网站的blog目录下,那么我的robots.txt的写法是否是这样:
Disallow: /blog/wp-
在前面多加一个/blog 么
我也遇到这种情况了
我的一个站Google把/sitemap.xml页面都收录进去了,而且是排在第二,第一是首页。这样怎么办呢?
朝鲜能在世界杯走多远?
受教了,正在找。。。。
学习了AD支持一下
请问,您的 robots.txt 文件中的 Disallow: /?r= 指的是什么?为什么要不充许搜索引擎爬行?
怕被索引了
为什么望月那么强呢,我就搜索wordpress博客下来,就可以找到了
学习了!很多博客的做法都不一样,都不知道怎么做了,有的还禁止了TAG的收录~~
学习了 马上按照望月博客的方式修改了
受教了,回头试试看
最近在折腾我的WordPress时,就在折腾这个,谢谢分享啦。
wordpress 用robot.txt如何不让搜索引擎收录日历目录啊! ❓
两个sitemap,会不会被搜索引擎视为作弊?
0.0 没隐蔽动态链接吗~~
我也写写robot.txt
怪不得百度不收录我的博客呢,原来是这个原因啊
值得学习的方法
嗯,收藏了后面试试看看
🙁 今天网站被百度K了,所以我要屏蔽百度!
才开始关注SEO,看来有些东西可以学的。
看到这里才知道我还没有懂robots.txt 的写法。谢谢了!
学习了
学习了
比我的多一点,不过我有加了。
嗯,修改了