应用错误收集

如何构建多页scrapy项目，使单页实现尽可能独立

时间：2015-11-28 11:44:13

标签： python web-scraping scrapy screen-scraping

我想使用scrapy废弃多个网页。我已经有了原型，但对“维护”成本不满意。

如何更好地改进我的scrapy项目，改进以下功能：

为每个页面（网页）刮刀提供独立的代码库
对多个页面使用“提取方法”，但仅保留一个，例如。页面截图util，image downloader
在完全运行之前测试“刮刀”（单元测试 - ＆gt;是否返回值）？
如果Portia成熟，如果单元测试失败，可以使用它吗？

我有什么目前：

我通过cron crawl tagesschau和crawl spiegel
运行刮刀后，我运行第二个脚本，获取每个新条目的截图（使用MySQL的裸蟒蛇脚本）

如果刮刀仍在工作，并且很难管理，那么就可以进行测试。

我能做得更好吗？

谢谢你，
-lony

：在@elias advice之后选择了Scrapy。

0 个答案:

没有答案