我一直在考虑禁止除Ask,Google,Microsoft和Yahoo!之外的每个爬虫。来自我的网站。
这背后的原因是我从未见过任何其他网络抓取工具产生的流量。
我的问题是:
更新
到目前为止,我使用了黑名单方法:如果我不喜欢爬虫,我将它们添加到禁用列表中
我并不喜欢黑名单,因为这是一个永无止境的故事:那里总有更多的爬虫。
我并不那么担心真正丑陋的行为不当的爬虫,它们会被自动检测和阻止。 (无论如何,他们通常不会要求robots.txt:)
然而,许多爬虫在任何方面都没有真正行为不端,它们似乎对我/我的客户没有任何价值。
例如,有几个抓取工具为网站提供支持,声称他们将成为下一个Google;只有更好。我从来没有见过来自他们的任何流量,我对他们变得比上面提到的四个搜索引擎中的任何一个更好持怀疑态度。
更新2:
我一直在分析几个站点的流量一段时间,似乎对于合理的小站点,每天有100个独特的人类访问者(=我不能认为不是人类的访问者)。大约52%的生成流量来自自动化流程。
所有自动访问者中有60%没有阅读robots.txt,占40%(占总流量的21%) 请求robots.txt。 (包括Ask,Google,Microsoft和Yahoo!)
所以我的想法是,如果我阻止所有似乎没有为我生成任何价值的表现良好的爬虫,我可以将带宽使用和服务器负载减少大约12%-17%。
答案 0 :(得分:4)
互联网是发布机制。如果你想将你的网站列入白名单,那你就是对抗这种情况,但这很好。
您想将您的网站列入白名单吗?
请记住,忽视robots.txt的行为不当的机器人无论如何都不会受到影响(很明显),并且表现良好的机器人可能存在的原因很明显,只是那对你来说是不透明的。
答案 1 :(得分:3)
虽然抓取您网站的其他网站可能没有按照您的方式发送任何内容,但google等人可能会将其自身编入索引,因此添加到您的网页排名,阻止他们访问您的网站可能会影响这一点。 / p>
答案 2 :(得分:3)
有没有理由不这样做?
您是否希望被排除在您可能不知情的网站之外,并且间接地以您的方式提供大量内容。
如果某些奇怪的抓取工具正在锤击您的网站并占用您的带宽,您可能会想要,但很可能此类抓取工具也不会尊重您的robots.txt。
检查您的日志文件,查看您拥有的抓取工具以及他们正在吃的带宽比例。可能有更直接的方法来阻止轰炸您网站的流量。
答案 3 :(得分:2)
目前这有点尴尬,因为没有“允许”字段。简单的方法是将所有不允许的文件放入一个单独的目录中,比如“stuff”,并将一个文件保留在该目录上方的级别中。
答案 4 :(得分:1)
我唯一担心的是你可能会错过下一件大事。
很长一段时间AltaVista是 搜索引擎。可能比谷歌现在还要多。 (没有bing,或者Ask,雅虎是一个目录,而不是搜索引擎)。那些阻止除了Altavista之外的所有网站的网站从来没有见过来自谷歌的流量,因此从来不知道它有多受欢迎,除非他们从另一个来源听到它,这可能会让他们暂时处于相当不利的地位。
Pagerank倾向于偏向旧网站。您不希望看起来比您更新,因为您无缘无故阻止通过robots.txt进行访问。这些家伙:http://www.dotnetdotcom.org/现在可能完全无用,但也许在5年后,你现在不在他们的索引中的事实将在下一个大搜索引擎中对你不利。