如何构建多页scrapy项目,使单页实现尽可能独立

时间:2015-11-28 11:44:13

标签: python web-scraping scrapy screen-scraping

我想使用scrapy废弃多个网页。我已经有了原型,但对“维护”成本不满意。

如何更好地改进我的scrapy项目,改进以下功能:

  • 为每个页面(网页)刮刀提供独立的代码库
  • 对多个页面使用“提取方法”,但仅保留一个,例如。页面截图util,image downloader
  • 在完全运行之前测试“刮刀”(单元测试 - >是否返回值)?
  • 如果Portia成熟,如果单元测试失败,可以使用它吗?

我有什么目前

  • 我通过cron crawl tagesschaucrawl spiegel
  • 运行我的刮刀
  • 运行刮刀后,我运行第二个脚本,获取每个新条目的截图(使用MySQL的裸蟒蛇脚本)

如果刮刀仍在工作,并且很难管理,那么就可以进行测试。

我能做得更好吗?

谢谢你,
-lony

:在@elias advice之后选择了Scrapy。

0 个答案:

没有答案