我希望隐藏一个网站,以便它不会出现在任何搜索引擎中,只是想知道我会如何解决这个问题?
答案 0 :(得分:6)
答案 1 :(得分:2)
除了密码保护您的网站外,您还可以将这些行添加到robots.txt
:
User-agent: *
Disallow: /
这不是隐藏网站,而是指示机器人不要抓取内容。
答案 2 :(得分:2)
您可以以某种方式使用robots.txt减少列出的网站。请注意,这取决于爬虫的“商誉”(一些垃圾邮件将明确查看您不允许的位置)。
遗憾的是,没有列出网站的唯一安全可靠的方法就是不把它放在互联网上。
只是不链接到您的网站将无法正常工作。 Crawlers从许多来源获取信息,包括浏览器引荐和域名注册商。因此,为了“隐身”,您不必访问您的网站而不注册域名(仅通过IP地址访问)。
然后,如果您基于IP地址运行您的网络服务器,您仍然可以使用所有spambots探测随机地址。这需要一段时间,但他们会找到你。
保护您网站的密码应该有效,有效地使其无法访问。虽然(并且我的理解是如何发生的)例如,谷歌中列出了数以千计的ACM论文,如果没有帐户并登录,你就看不到它们。但它们就在那里。
答案 3 :(得分:1)
使用robots.txt,拒绝所有搜索引擎。 他们并不都尊重robots.txt,因此请定期检查您的服务器日志并拒绝可疑机器人/爬虫的范围:
答案 4 :(得分:0)
您使用robots.txt
文件。使用以下内容将文件放在网站的根目录中:
User-agent: *
Disallow: /
答案 5 :(得分:0)
大多数正确的搜索引擎使用机器人或爬虫到网站并为其编制索引。你可以Robot File method
答案 6 :(得分:-1)
查看nofollow
Wikipedia
答案 7 :(得分:-1)
您需要了解您应该在网站的webroot中复制的robots.txt文件 - http://www.robotstxt.org/robotstxt.html。