python - 数据收集Urllib2 + bs4 vs Scrapy

这是我的见解。

Scrapy旨在使网页抓取代码更简单，更有条理。它也非常快（它基于扭曲）。

这些蜘蛛类，项目，项目管道确实可以帮助您组织获取页面，链接，解析响应，收集数据，将其存储在某个位置等过程。它为您提供了一个关于如何创建Web的创意和模板-scraping项目。

它远远超过urllib2 + bs4，它是一个框架：

Scrapy是一个用于抓取网站的应用程序框架提取可用于各种各样的结构化数据有用的应用程序，如数据挖掘，信息处理或历史档案。

除了我提到的功能之外，还有很多其他功能，请参阅此信息丰富的overview文档页面，尤其是阅读What else?部分。

选择（urllib2 + bs4或Scrapy）实际上取决于任务，网页抓取代码的复杂程度，是否需要将抓取的数据存储在某处或者不是等等。

希望有所帮助。