robots.txt文件可能无效

时间:2012-04-26 19:53:46

标签: indexing web-crawler robots.txt

这是我的robots.txt。我希望仅允许基本网址domain.com进行索引,并禁止所有子网址,例如domain.com/foodomain.com/bar.html

User-agent: *
Disallow: /*/

因为我不确定这是否是有效的语法,所以我使用Google网站站长工具对其进行了测试。它向我显示了这条消息。

robots.txt file is probably invalid.

我的文件有效吗?是否有更好的方法只允许基本网址进行索引?

更新:Google 4小时前下载了robots.txt。我认为这就是为什么它不起作用。我会等一段时间,如果问题仍然存在,我会再次更新我的问题。

1 个答案:

答案 0 :(得分:0)

这是验证者的链接。它可以帮助您解决文件中的任何错误。

Robots.txt Checker

我检查了另一个验证器robots.txt Checker,这就是我在第二行找到的:

  

此处不允许使用通配符(如“*”)下面的行   必须是允许,禁止,评论或空行声明

这可能就是你要找的东西:

User-Agent: *
Allow: /index.html
Disallow: /

这假定您的主页是index.html。

如果index.php是您的主页,您应该能够将index.html替换为index.php。

User-Agent: *
Allow: /index.php
Disallow: /

在我通过index.php运行的动态网站上,访问mydomain.com/index.php仍会将我带到主页,因此上述内容应该可以正常工作。