我有一个非常幼稚的问题,我无法找到答案。 我有一个wordpress博客。 所有帖子都列在几个页面中,例如
mydomain.com/blog/
mydomain.com/blog/page/2/
...
mydomain.com/blog/page/N/
所以我不希望抓取工具“记住”特定页面上的内容,但想要让它 抓取每个“/ page /”上链接的所有帖子,它是否能够跟踪和抓取我不允许的页面上的链接
disallow: /blog/page/ ?
或者我如何禁止抓取特定网页上的帖子,但仍然可以抓取所有帖子?
答案 0 :(得分:1)
你不能用robots.txt做到这一点。您的示例Disallow
行会告诉抓取工具“请勿申请以/blog/page/
开头的网址。
您可能要做的是在所有/ page /页面中添加“noindex”robots meta tag。这告诉Google,“不要将这些页面编入索引”,但允许机器人抓取它们并获取指向各个博客条目的链接。