Scrapy无尽的爬行

时间:2013-09-24 19:32:52

标签: python scrapy web-crawler

我在经销商网站上使用Python Scrapy构建了一个爬行蜘蛛。我只是想收集该域下的所有URL以及每个页面,该页面下列出了哪些URL。然后我可能想用Gephi来可视化该域的网络连接。

(1) 如何存储已抓取的网址(内存或磁盘)以及抓取限制是什么? 但是,我认为爬虫已经运行了4天,它已经爬了大约700K页。 我知道Scrapy不会抓取已经抓取的页面,但我想知道:随着页面数量的增加,Scrapy是否会限制“记住”它抓取的页面?被抓取的URL将保留在内存中,或者这背后的机制是什么?

(2) 抓取单个域是否总会结束?如果不是? 顺便说一句,我现在应该停止爬行,因为我不知道这个蜘蛛什么时候结束,我不知道它们是否有可能有一些动态页面,所以“域爬行”实际上是一项无穷无尽的任务。 ...例如,他们有一些参数搜索框,这些搜索的所有组合将导致新页面(javascript调用),但实际上......导致巨大的冗余..

在我了解Scrapy之前,我首先尝试在URL中找出模式,然后填充所有URL,然后转到每个URL并使用urllib2 + bs4进行刮擦。所以我不太确定这种“盲目”爬行实际上是可控制的。

这里可能存在一些“哲学”问题,而不是具体问题,但......欣赏任何想法或想法。

0 个答案:

没有答案