Question

我有一个需要通过SSL进行HTTP身份验证的管理应用程序。我在我的网站的robot.txt文件中包含了管理应用程序的路径。

我宁愿不在任何地方看到管理员应用的路径。 HTTP auth是否会阻止网络蜘蛛索引页面？

Answer 1

如果您使用合适的4xx（但不是HTTP 410或HTTP 404）HTTP状态代码进行回复，则是，HTTP auth将阻止Google对此页面编制索引。

请参阅：http://www.google.com/support/webmasters/bin/answer.py?answer=40132

另外你可以发送

X-Robots-Tag: noindex

HTTP标头，以确保更好。

请参阅：http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html

哦，是的，包括robots.txt中的网址更有可能是谷歌索引页面.... robots.txt是一个抓取指令，它基本上说：不要获取该网址的内容。所以谷歌不知道它是一个HTTP身份验证，但由于爬行是可选的索引（是的，真的），网址搜索结果中的网址可能（并且这是一个非常大的可能）。我在这里更详细地解释了谷歌（机器人）漏斗pages not indexed by Google

正确的HTTP状态标头和x-robot-tag更适合确保网址中没有显示网址（但如果robots.txt指令保留在原位，则两者都无用）

Web蜘蛛和HTTP身份验证

1 个答案: