应用错误收集

最近，我一直在尝试使用Scrapy开发Web爬网程序以从特定域中提取所有PDF文档，尽管我可以以某种方式实现目标，但它仍陷于某种“无限循环”中，因为该网站的“搜索引擎”部分。

有什么办法可以避免这种行为？

这是到目前为止已编写的搜寻器的代码（很抱歉，如果是意大利面条，仍在尝试变得更好。。）：

s$values[,1]
[1] "002e2b45555652749339ab9c34359fb6" "002e2b433226527493jsab9c34353fb6"

我试图通过添加一个上限（n_iterations）来限制爬虫的深度，该上限应为搜寻器应深入的深度。它可以工作，但是我仍然想以适当的方式过滤它爬网的链接。

非常感谢您的帮助，祝您度过愉快的一周！