哪个是使用Scrapy抓取1000个网站的更好方法?

时间:2015-08-14 09:43:15

标签: scrapy

我想听听使用Scrapy以便抓取1000个网站的3种不同方法之间的差异。

例如,我想要抓1000个照片网站,它们最具有相同的结构。就像有一种照片列表页面,以及其他类型的大照片页面;但这些列表或照片desc页面的HTML代码不会完全相同。

另一个例子,我想刮掉1000个wordpress博客,只有bolg的文章。

  • 第一个是使用一个scrapy项目探索整个1000个站点。
  • 第二个是在同一个scrapy项目下拥有所有这1000个站点,items.py中的所有项目,每个站点都有自己的蜘蛛。
  • 第三个类似于第二个,但是所有网站都有一个蜘蛛而不是分开它们。

有什么不同之处,您认为哪种方法是正确的?还有其他更好的方法我错过了吗?

1 个答案:

答案 0 :(得分:1)

我有90个网站可供使用,所以每个网站创建一个抓取工具并不是一个很好的选择。这个想法是能够并行运行。此外,我将其拆分为在一个地方打包类似的页面格式。

所以我最终得到了2个爬虫:

  • 抓取工具1 - 网址提取器。这将从文件的顶级列表页面中提取所有详细页面URL。
  • Crawler 2 - 获取详细信息。 这将从URL文件中读取并提取项目详细信息。

这允许我首先获取URL并估计第二个爬虫可能需要的线程数。

由于每个爬虫都在处理特定的页面格式,因此我可以重复使用相当多的函数。