试图减少使用我们的数据的网站数量。以下是此Stackoverflow链接上的详细示例:
Scrapy not following pagination properly, catches the first link in the pagination
对此我还比较陌生,但是根据前一个链接中的信息,是否有阻止此特定刮板的功能?
答案 0 :(得分:0)
我认为防止报废站点的唯一有效方法是软禁IP并限制在给定时间范围内允许它们发出的请求数量。 robots.txt对于像Google这样的抓取工具可能很有用,但是大多数抓取工具甚至都不会检查它,并且绝对不可能禁止对您的网站建立索引。