在robots.txt中阻止子目录

时间:2011-08-19 02:14:36

标签: robots.txt

我的网站有个人资料,然后是这些个人资料以外的网页。 (示例:http://www.site.com/profilehttp://www.site.com/profile/settings

我想从子文件夹中阻止Google抓取工具。我想谷歌索引/ profile /但不能超越它。

另一个例子: - http://twitter.com/bmull< - 允许 - http://twitter.com/bmull/favorites< - 阻止

2 个答案:

答案 0 :(得分:1)

你也可以在你不想让机器人索引/关注的页面中使用<meta name="robots" content="noindex, nofollow" />,但是请记住,这些文件中的所有内容都是自愿的,机器人可以选择不遵循,所以我建议使用ip或用户代理封锁是一条更好的路线。

答案 1 :(得分:1)

这适用于Google,但不保证可以与其他蜘蛛一起使用。正如secretformula建议的那样,最好的办法是在服务器端逻辑中使用ip或用户代理阻止

User-agent: *
Disallow: /*/settings