web-crawler - 如何在tcl webserver上停止蜘蛛/爬虫

如何在tcl webserver上停止蜘蛛/爬虫

时间：2017-09-14 16:31:43

标签： web-crawler webserver tcl

我有一个将托管在tclhttpd服务器上的应用程序。我想知道是否有办法阻止网页抓取工具读取目录结构。 PS：我读过robots.txt。但我发现的问题是，即使我提供robots.txt文件，也无法阻止机器人阅读更多内容。任何帮助都非常有用。 TIA

1 个答案:

答案 0 :(得分：0)

有几种方法可以做到这一点，但最简单的方法可能是将Tcl webserver放在nginx实例后面。（Apache也可以运行良好，但我不喜欢配置apache;它不像我想的那样工作。）然后，您可以使用所有常用的配方来处理为该系统记录的蜘蛛和爬虫。您还可以使用负载平衡配置将多个服务器放在单个端口后面。有很多选项，取决于您想要做多少工作以及您的预算。

然而，这些都不是部署解决方案中真正的编程解决方案。因此，在其他Stack Exchange站点上可以更好地回答它们（例如，服务器故障）。好的部分是Tcl程序往往运行相当轻量级，因此将多个实例放在一台服务器上是非常实用的。