爬网而不爬网页面的“搜索引擎”部分

时间:2018-07-02 14:38:01

标签: python web-scraping scrapy

最近,我一直在尝试使用Scrapy开发Web爬网程序以从特定域中提取所有PDF文档,尽管我可以以某种方式实现目标,但它仍陷于某种“无限循环”中,因为该网站的“搜索引擎”部分。

有什么办法可以避免这种行为?

这是到目前为止已编写的搜寻器的代码(很抱歉,如果是意大利面条,仍在尝试变得更好。。):

s$values[,1]
[1] "002e2b45555652749339ab9c34359fb6" "002e2b433226527493jsab9c34353fb6"

我试图通过添加一个上限(n_iterations)来限制爬虫的深度,该上限应为搜寻器应深入的深度。它可以工作,但是我仍然想以适当的方式过滤它爬网的链接。

非常感谢您的帮助,祝您度过愉快的一周!

0 个答案:

没有答案