我想听听使用Scrapy以便抓取1000个网站的3种不同方法之间的差异。
例如,我想要抓1000个照片网站,它们最具有相同的结构。就像有一种照片列表页面,以及其他类型的大照片页面;但这些列表或照片desc页面的HTML代码不会完全相同。
另一个例子,我想刮掉1000个wordpress博客,只有bolg的文章。
有什么不同之处,您认为哪种方法是正确的?还有其他更好的方法我错过了吗?
答案 0 :(得分:1)
我有90个网站可供使用,所以每个网站创建一个抓取工具并不是一个很好的选择。这个想法是能够并行运行。此外,我将其拆分为在一个地方打包类似的页面格式。
所以我最终得到了2个爬虫:
这允许我首先获取URL并估计第二个爬虫可能需要的线程数。
由于每个爬虫都在处理特定的页面格式,因此我可以重复使用相当多的函数。