如何防止网站被抓取

时间:2018-09-25 13:56:56

标签: scrapy screen-scraping

试图减少使用我们的数据的网站数量。以下是此Stackoverflow链接上的详细示例:

Scrapy not following pagination properly, catches the first link in the pagination

对此我还比较陌生,但是根据前一个链接中的信息,是否有阻止此特定刮板的功能?

1 个答案:

答案 0 :(得分:0)

我认为防止报废站点的唯一有效方法是软禁IP并限制在给定时间范围内允许它们发出的请求数量。 robots.txt对于像Google这样的抓取工具可能很有用,但是大多数抓取工具甚至都不会检查它,并且绝对不可能禁止对您的网站建立索引。