应用错误收集

如何防止网站被抓取

时间：2018-09-25 13:56:56

标签： scrapy screen-scraping

试图减少使用我们的数据的网站数量。以下是此Stackoverflow链接上的详细示例：

Scrapy not following pagination properly, catches the first link in the pagination

对此我还比较陌生，但是根据前一个链接中的信息，是否有阻止此特定刮板的功能？

1 个答案:

答案 0 :(得分：0)

我认为防止报废站点的唯一有效方法是软禁IP并限制在给定时间范围内允许它们发出的请求数量。 robots.txt对于像Google这样的抓取工具可能很有用，但是大多数抓取工具甚至都不会检查它，并且绝对不可能禁止对您的网站建立索引。