如何在tcl webserver上停止蜘蛛/爬虫

时间:2017-09-14 16:31:43

标签: web-crawler webserver tcl

我有一个将托管在tclhttpd服务器上的应用程序。我想知道是否有办法阻止网页抓取工具读取目录结构。 PS:我读过robots.txt。但我发现的问题是,即使我提供robots.txt文件,也无法阻止机器人阅读更多内容。 任何帮助都非常有用。 TIA

1 个答案:

答案 0 :(得分:0)

有几种方法可以做到这一点,但最简单的方法可能是将Tcl webserver放在nginx实例后面。 (Apache也可以运行良好,但我不喜欢配置apache;它不像我想的那样工作。)然后,您可以使用所有常用的配方来处理为该系统记录的蜘蛛和爬虫。您还可以使用负载平衡配置将多个服务器放在单个端口后面。有很多选项,取决于您想要做多少工作以及您的预算。

然而,这些都不是部署解决方案中真正的编程解决方案。因此,在其他Stack Exchange站点上可以更好地回答它们(例如,服务器故障)。好的部分是Tcl程序往往运行相当轻量级,因此将多个实例放在一台服务器上是非常实用的。