问题:如果我的Scrapy crawlspider带有回调标记链接提取,another that finds relative file paths位于带有xpath的 img src
标记下,这些函数执行时一般会发生什么?是否所有与两个函数相关的信息都保存在内存中,因此不需要多次爬网?或者网站会被多次抓取,因为回调似乎找不到相同的东西(即,绝对路径以及标准链接提取器不返回的相对路径)?
背景:我有一个可以进行基本链接提取的crawlspider,另一个用于在 img src
HTML标记下查找图像的相对文件路径。为了提高效率,我只将两个函数定义放在同一个蜘蛛下。但是,在我抓住目标站点的触发器之前,我想知道这是否会增加被阻止的风险或者通常会对目标站点提出更大的要求。例如,如果蜘蛛爬过整个域两次,那么这似乎会增加风险等级。但是,如果我正确地解释了对this question的主要响应,则爬虫可能会保存这些不同函数在内存中搜索的所有内容,这样多次回调不会增加我在目标域上的占用空间。如果我对引擎盖下发生的情况有所了解,那么在我认为存在被禁止或其他原因存在合法风险的网站之前我会感觉更舒服。
谢谢!