如何禁止robots.txt中的特定页面

时间:2010-08-15 06:29:51

标签: robots.txt

我在我的网站上创建了两个非常相似但用途不同的页面。一个是感谢用户发表评论,另一个是鼓励用户订阅。

我不想要重复的内容,但我确实希望这些页面可用。我可以设置站点地图隐藏一个吗?我会在robots.txt文件中执行此操作吗?

禁令看起来像这样:

禁止:/ wp-admin

我如何自定义特定页面,如:

http://sweatingthebigstuff.com/thank-you-for-commenting

4 个答案:

答案 0 :(得分:41)

Disallow: /thank-you-for-commenting
robots.txt

中的

看一下last.fm robots.txt file的灵感。

答案 1 :(得分:4)

robots.txt文件使用正则表达式来匹配页面,因此为了避免定位比您想要的更多页面,您可能需要在页面名称的末尾添加$:

Disallow: /thank-you-for-commenting$

如果你不这样做,你也会不允许页面/感谢你对此进行评论

答案 2 :(得分:2)

您还可以在 robots.txt 文件中添加包含扩展名的特定页面。在测试的情况下,您可以指定测试页路径以禁止机器人爬行。

例如:

 Disallow: /index_test.php
 Disallow: /products/test_product.html
 Disallow: /products/     

第一个Disallow: /index_test.php将禁止机器人抓取根文件夹中的测试页。

第二个Disallow: /products/test_product.html将禁止“产品”文件夹下的test_product.html。

最后,最后一个示例Disallow: /products/将禁止抓取整个文件夹。

答案 3 :(得分:1)

这非常简单,您想要禁止的任何页面,只需提供此文件或文件夹的根URL。 只需将其放入robots.txt文件即可。

Disallow: /thank-you-for-commenting