如何通过robots.txt让HTTrack Crawlers远离我的网站?

时间:2012-11-08 07:37:38

标签: robots.txt web-crawler

我正在维护网站http://www.totalworkflow.co.uk,并且不确定HTTrack是否遵循robots.txt文件中的说明。如果有任何答案我们可以让HTTrack远离网站,请建议我实施,否则只需告诉机器人名称,这样我就可以阻止这个垃圾爬行我的网站。如果robots.txt无法做到这一点,请推荐其他任何方式让机器人远离网站?


您说得对,垃圾邮件爬虫不必遵循robots.txt文件中给出的指南。我知道robots.txt仅适用于真正的搜索引擎。但是,如果开发人员对此应用程序进行硬编码而不跳过robots.txt指南(如果提供),则应用程序HTTrack可能看起来很真实。如果提供此选项,则应用程序对于预期目的非常有用。好吧让我来解决我的问题,实际上我想找到的解决方案就是让HTTRack抓取工具远离Web服务器上的任何硬代码。我首先尝试在网站管理员级别解决此问题。但是,您的想法很有可能在将来考虑。谢谢

1 个答案:

答案 0 :(得分:1)

它应该服从robots.txt,但robots.txt是你不必服从的东西(实际上是一件非常好的事情,找到你不希望别人看到的垃圾邮件机器人)所以什么是保证(即使它现在服从机器人)未来的某个时间,将无法忽略所有robots.txt和元标记?我认为更好的方法是配置服务器端应用程序以检测和阻止用户代理。用户代理字符串有可能在搜寻器的源代码中的某处硬编码,并且用户将无法更改它以阻止您阻止该搜寻器。您所要做的就是编写服务器脚本以吐出用户代理信息(或检查服务器日志),然后根据此信息创建阻止规则。或者,你可以只谷歌一个已知的“坏代理人”列表。要在支持HTACCESS的服务器上阻止用户代理,请查看此线程以了解其中一种方法:

Block by useragent or empty referer