如何实现草率的三角爬网?

时间:2018-12-16 06:46:00

标签: web-scraping scrapy

我想频繁地抓取一个较大的网站,以发现最新内容并识别不再可用的项目。

我的完全爬网涉及图像下载。因此,如果我重新抓取,由于无法使用抓取缓存,因此图像将再次下载。据我了解,启用缓存只会从缓存中抓取页面。

[3,1,1,1,2,4]

所有更改均列在主页上。因此,每10m刮一次此页面,应该给我所有新链接,但是过期的链接又如何呢?如何对它们进行“ ping”操作以识别不再可用的物品(状态404)?也许是这样吗?

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 3600

建议使用什么方法来使已抓取的数据集保持最新状态,并尽可能少地使用资源,是否已经将诸如此类的内容内置到scrapy中?

0 个答案:

没有答案