Question

我有一个非常幼稚的问题，我无法找到答案。我有一个wordpress博客。所有帖子都列在几个页面中，例如

mydomain.com/blog/
mydomain.com/blog/page/2/
...
mydomain.com/blog/page/N/

所以我不希望抓取工具“记住”特定页面上的内容，但想要让它抓取每个“/ page /”上链接的所有帖子，它是否能够跟踪和抓取我不允许的页面上的链接

disallow: /blog/page/ ?

或者我如何禁止抓取特定网页上的帖子，但仍然可以抓取所有帖子？

Answer 1

你不能用robots.txt做到这一点。您的示例Disallow行会告诉抓取工具“请勿申请以/blog/page/开头的网址。

您可能要做的是在所有/ page /页面中添加“noindex”robots meta tag。这告诉Google，“不要将这些页面编入索引”，但允许机器人抓取它们并获取指向各个博客条目的链接。