这个robots.txt文件是否只允许googlebot索引我网站的index.php文件? CAVEAT,我有一个htaccess重定向,输入
的人 http://www.example.com/index.php
被重定向到
http://www.example.com/
所以,这是我的robots.txt文件内容......
User-agent: Googlebot
Allow: /index.php
Disallow: /
User-agent: *
Disallow: /
提前致谢!
答案 0 :(得分:0)
不是。
好机器人
只有“好”机器人才会按照robots.txt
说明进行操作(并非所有机器人和蜘蛛都需要阅读/关注robots.txt
)。这可能甚至不包括所有主要的搜索引擎机器人,但它肯定意味着一些网络抓取工具将完全忽略您的请求(如果您真的想要阻止机器人/抓取工具看到部分,请查看使用.htaccess或密码保护你的网站。)
第二次检查
Google会对您的网站进行多次访问,包括作为浏览用户出现。第二次访问将忽略robots.txt
文件。第二次访问可能实际上没有索引(如果这是你的担心),但它确实检查以确保你不是在试图欺骗索引机器人(用于搜索引擎优化等)。
据说你的语法是正确的......如果这就是你所要求的,那么是的它会起作用,就像你希望的那样好。
答案 1 :(得分:0)
如果没有重定向,Googlebot将无法看到您的网站,但index.php除外。
使用重定向,它取决于机器人如何处理重定向以及htaccess如何进行重定向。如果您返回302,则Googlebot会看到http://www.example.com/
,请检查robots.txt,而不会看到主网站。即使您执行内部重定向并告诉Googlebot,响应页面为http://www.example.com/
,它也会看到该页面,但可能不会将其编入索引。
答案 2 :(得分:0)
风险很大。为了确保Google确实为您的主页编制索引,请执行以下操作:
User-agent: *
Allow: /index.php
Disallow: /a
Disallow: /b
...
Disallow: /z
Disallow: /0
...
Disallow: /9
所以你的根“/”将不符合禁止规则。
此外,如果您有AdSense,请不要忘记添加
User-agent: Mediapartners-Google
Allow: /