我一直在评估网络抓取的科学。我用来做的框架是Python / Scrapy。我相信可能会有更多。我的问题更多地围绕着基础知识。假设我必须抓新闻内容。所以,我抓取一个页面,然后编写选择器来提取内容,图像,作者,发布日期,子描述,评论等。编写这段代码没什么大不了的。
问题是我如何优化它,以便可以扩展到大量数据源。例如,可能有数以千计的新闻网站,每个网站都有自己的html /页面结构,所以我不可避免地要为每个网站编写一个抓取逻辑。虽然可能,但这需要一大群资源在很长一段时间内工作来创建和更新这些抓取工具/抓取工具。
有一种简单的方法吗?我能以某种方式简化为每个数据源(网站)创建不同刮刀的过程吗?
像recordedfuture这样的网站如何做到这一点?他们是否还有一个大型团队全天候工作,因为他们声称从250000多个DISTINCT源提取数据?
答案 0 :(得分:1)
我不确定RecordedFuture是如何运作的,但在我看来,他们搜索的很多网站都是他们自己的客户,他们担心安全威胁。
我无法编写足以解析许多网站的代码。数据同时。但是,如果您知道最终的URL或具有足够的标准来抓取每个站点(例如,您将下载每个图像),那么绝对可以编写足以从许多站点下载网页的代码。
我总是下载HTML然后再解析它,以便我可以迭代我的解析并且不依赖于网站保持实时。如果有帮助,请告诉我,让我知道有关您的用例的更多详细信息,以便我能更好地为您提供帮助。