应用错误收集

我正在维护网站http://www.totalworkflow.co.uk，并且不确定HTTrack是否遵循robots.txt文件中的说明。如果有任何答案我们可以让HTTrack远离网站，请建议我实施，否则只需告诉机器人名称，这样我就可以阻止这个垃圾爬行我的网站。如果robots.txt无法做到这一点，请推荐其他任何方式让机器人远离网站？

您说得对，垃圾邮件爬虫不必遵循robots.txt文件中给出的指南。我知道robots.txt仅适用于真正的搜索引擎。但是，如果开发人员对此应用程序进行硬编码而不跳过robots.txt指南（如果提供），则应用程序HTTrack可能看起来很真实。如果提供此选项，则应用程序对于预期目的非常有用。好吧让我来解决我的问题，实际上我想找到的解决方案就是让HTTRack抓取工具远离Web服务器上的任何硬代码。我首先尝试在网站管理员级别解决此问题。但是，您的想法很有可能在将来考虑。谢谢

它应该服从robots.txt，但robots.txt是你不必服从的东西（实际上是一件非常好的事情，找到你不希望别人看到的垃圾邮件机器人）所以什么是保证（即使它现在服从机器人）未来的某个时间，将无法忽略所有robots.txt和元标记？我认为更好的方法是配置服务器端应用程序以检测和阻止用户代理。用户代理字符串有可能在搜寻器的源代码中的某处硬编码，并且用户将无法更改它以阻止您阻止该搜寻器。您所要做的就是编写服务器脚本以吐出用户代理信息（或检查服务器日志），然后根据此信息创建阻止规则。或者，你可以只谷歌一个已知的“坏代理人”列表。要在支持HTACCESS的服务器上阻止用户代理，请查看此线程以了解其中一种方法：

Block by useragent or empty referer

如何通过robots.txt让HTTrack Crawlers远离我的网站？

1 个答案: