如何使用robots.txt只允许抓取工具访问index.php?

时间:2009-10-28 14:30:11

标签: seo web-crawler robots.txt

如果我只想让抓取工具访问index.php,这会有效吗?

User-agent: *
Disallow: /
Allow: /index.php

5 个答案:

答案 0 :(得分:20)

是的,它会起作用。以下是Google Webmaster Tool的测试结果。

Url
http://www.example.org/index.php

Googlebot
Allowed by line 3: Allow: /index.php

Googlebot-Mobile
Allowed by line 3: Allow: /index.php

但请注意,使用此配置时,除非使用完整限定路径访问网页,否则不会抓取您的网站主页。 换言之,http://www.example.org/被禁止,而http://www.example.org/index.php被允许。

如果您希望自己的首页可以访问,请输入更好的文件版本。

User-agent: *
Disallow: /
Allow: /index.php
Allow: /$

答案 1 :(得分:3)

User-agent: *

Allow: /index.php
Disallow: /

答案 2 :(得分:2)

尝试交换Disallow / Allow的顺序:

User-agent: *
Allow: /index.php
Disallow: /

从维基百科中查看此信息:

  

“然而,为了与所有人兼容   机器人,如果你想允许单身   在其他方面不允许的文件   目录,您需要放置允许   首先是指令,然后是   禁止,例如:“

http://en.wikipedia.org/wiki/Robots.txt

我仍然不希望它的工作过于一致

答案 3 :(得分:1)

您可以使用Google Robots tool结帐。我永远不会在机器人文件中放置任何秘密目录,因为我猜想下面这样的线对于某些蜘蛛来说就像蜂蜜一样。

Disallow: /secret

答案 4 :(得分:1)

User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow: /

Sitemap: http://www.your-site-name.com/sitemap.xml