应用错误收集

我一直在评估网络抓取的科学。我用来做的框架是Python / Scrapy。我相信可能会有更多。我的问题更多地围绕着基础知识。假设我必须抓新闻内容。所以，我抓取一个页面，然后编写选择器来提取内容，图像，作者，发布日期，子描述，评论等。编写这段代码没什么大不了的。

问题是我如何优化它，以便可以扩展到大量数据源。例如，可能有数以千计的新闻网站，每个网站都有自己的html /页面结构，所以我不可避免地要为每个网站编写一个抓取逻辑。虽然可能，但这需要一大群资源在很长一段时间内工作来创建和更新这些抓取工具/抓取工具。

有一种简单的方法吗？我能以某种方式简化为每个数据源（网站）创建不同刮刀的过程吗？

像recordedfuture这样的网站如何做到这一点？他们是否还有一个大型团队全天候工作，因为他们声称从250000多个DISTINCT源提取数据？