用于wordpress博客的robots.txt(disallow / blog / page / ...但允许抓取所有帖子的链接?)

时间:2011-12-30 22:32:47

标签: wordpress robots.txt web-crawler

我有一个非常幼稚的问题,我无法找到答案。 我有一个wordpress博客。 所有帖子都列在几个页面中,例如

mydomain.com/blog/
mydomain.com/blog/page/2/
...
mydomain.com/blog/page/N/

所以我不希望抓取工具“记住”特定页面上的内容,但想要让它 抓取每个“/ page /”上链接的所有帖子,它是否能够跟踪和抓取我不允许的页面上的链接

disallow: /blog/page/ ?

或者我如何禁止抓取特定网页上的帖子,但仍然可以抓取所有帖子?

1 个答案:

答案 0 :(得分:1)

你不能用robots.txt做到这一点。您的示例Disallow行会告诉抓取工具“请勿申请以/blog/page/开头的网址。

您可能要做的是在所有/ page /页面中添加“noindex”robots meta tag。这告诉Google,“不要将这些页面编入索引”,但允许机器人抓取它们并获取指向各个博客条目的链接。