我有一个需要通过SSL进行HTTP身份验证的管理应用程序。我在我的网站的robot.txt文件中包含了管理应用程序的路径。
我宁愿不在任何地方看到管理员应用的路径。 HTTP auth是否会阻止网络蜘蛛索引页面?
答案 0 :(得分:1)
如果您使用合适的4xx(但不是HTTP 410或HTTP 404)HTTP状态代码进行回复,则是,HTTP auth将阻止Google对此页面编制索引。
请参阅:http://www.google.com/support/webmasters/bin/answer.py?answer=40132
另外你可以发送
X-Robots-Tag: noindex
HTTP标头,以确保更好。
请参阅:http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html
哦,是的,包括robots.txt中的网址更有可能是谷歌索引页面.... robots.txt是一个抓取指令,它基本上说:不要获取该网址的内容。所以谷歌不知道它是一个HTTP身份验证,但由于爬行是可选的索引(是的,真的),网址搜索结果中的网址可能(并且这是一个非常大的可能)。我在这里更详细地解释了谷歌(机器人)漏斗pages not indexed by Google
正确的HTTP状态标头和x-robot-tag更适合确保网址中没有显示网址(但如果robots.txt指令保留在原位,则两者都无用)