如果我只想让抓取工具访问index.php,这会有效吗?
User-agent: *
Disallow: /
Allow: /index.php
答案 0 :(得分:20)
是的,它会起作用。以下是Google Webmaster Tool的测试结果。
Url
http://www.example.org/index.php
Googlebot
Allowed by line 3: Allow: /index.php
Googlebot-Mobile
Allowed by line 3: Allow: /index.php
但请注意,使用此配置时,除非使用完整限定路径访问网页,否则不会抓取您的网站主页。
换言之,http://www.example.org/
被禁止,而http://www.example.org/index.php
被允许。
如果您希望自己的首页可以访问,请输入更好的文件版本。
User-agent: *
Disallow: /
Allow: /index.php
Allow: /$
答案 1 :(得分:3)
User-agent: *
Allow: /index.php
Disallow: /
答案 2 :(得分:2)
尝试交换Disallow / Allow的顺序:
User-agent: *
Allow: /index.php
Disallow: /
从维基百科中查看此信息:
“然而,为了与所有人兼容 机器人,如果你想允许单身 在其他方面不允许的文件 目录,您需要放置允许 首先是指令,然后是 禁止,例如:“
http://en.wikipedia.org/wiki/Robots.txt
我仍然不希望它的工作过于一致
答案 3 :(得分:1)
您可以使用Google Robots tool结帐。我永远不会在机器人文件中放置任何秘密目录,因为我猜想下面这样的线对于某些蜘蛛来说就像蜂蜜一样。
Disallow: /secret
答案 4 :(得分:1)
User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow: /
Sitemap: http://www.your-site-name.com/sitemap.xml