应用错误收集

时间：2015-08-14 09:43:15

标签： scrapy

我想听听使用Scrapy以便抓取1000个网站的3种不同方法之间的差异。

例如，我想要抓1000个照片网站，它们最具有相同的结构。就像有一种照片列表页面，以及其他类型的大照片页面;但这些列表或照片desc页面的HTML代码不会完全相同。

另一个例子，我想刮掉1000个wordpress博客，只有bolg的文章。

有什么不同之处，您认为哪种方法是正确的？还有其他更好的方法我错过了吗？

答案 0 :(得分：1)

我有90个网站可供使用，所以每个网站创建一个抓取工具并不是一个很好的选择。这个想法是能够并行运行。此外，我将其拆分为在一个地方打包类似的页面格式。

所以我最终得到了2个爬虫：

这允许我首先获取URL并估计第二个爬虫可能需要的线程数。

由于每个爬虫都在处理特定的页面格式，因此我可以重复使用相当多的函数。