Scrapy应该在哪个文件/位置处理数据?

时间:2019-01-29 12:47:14

标签: python scrapy scrapy-spider scrapy-pipeline

Scrapy具有允许处理抓取数据的几个点/位置:蜘蛛项目蜘蛛中间件。但是我不知道应该在哪里做对。我可以在所有这些地方处理一些抓取的数据。您能详细说明一下两者之间的区别吗?

例如:下载器中间件将一些数据返回给蜘蛛(数字,短字符串,URL,很多HTML,列表等)。我应该在哪里做什么?我知道该怎么办,但不清楚在哪里做……

2 个答案:

答案 0 :(得分:0)

我会尝试按顺序解释

蜘蛛是您决定向哪个URL发出请求的

DownloadMiddleware 具有process_request方法,该方法在对URL发出请求之前被调用,并且具有process_response方法,一旦收到来自该URL的响应,即被调用< / p>

管道是当您从蜘蛛yield字典时发送数据的地方

答案 1 :(得分:0)

Spiders是定义如何提取数据的要点,例如items。如有疑问,请仅在蜘蛛中实现提取逻辑,而忽略其他Scrapy功能。

Item loadersitem pipelinesdownloader middlewaresspider middlewaresextensions主要用于具有多个蜘蛛的抓取项目中的代码共享。

如果您发现自己在两个或多个蜘蛛网中重复相同的代码,并且决定不再重复自己,那么您应该进入这些组件并选择使用哪些组件来简化您的代码库,以便将现有的重复代码移入这些类型的一个或多个组件。

与仅在Spider子类之间使用类继承相比,这通常是一种更好的方法。

关于如何使用每个组件:

  • Item loaders用于共享提取逻辑(例如XPath和CSS选择器,正则表达式)以及字段值的预处理和后处理。

    例如:

    • 如果您为使用某种标准的标记数据提取方式的网站编写蜘蛛程序,例如schema.org,则可以在项目加载器上编写提取逻辑,然后在蜘蛛程序中重用它。

    • 如果要始终将项目字段的值切换为大写,则可以在项目加载程序类上使用输出处理器,并在蜘蛛网上重用该项目加载程序。

  • Item pipelines用于项目的后处理(不仅仅是特定项目中的项目数据)。

    常见用例包括删除重复项(通过跟踪解析的每个项的唯一标识数据)或将项发送到数据库服务器或其他形式的存储(作为feed exports的灵活替代方式)。

  • Downloader middlewares用于处理响应请求的共享逻辑。

    常见用例包括实施反机器人软件检测和处理或代理处理。 (built-in downloader middlewares

  • Spider middlewares用于蜘蛛之间的任何其他共享逻辑。它是蜘蛛基础类的关闭。它可以处理来自蜘蛛,初始请求等的异常。(built-in spider middlewares

  • Extensions用于对Scrapy本身进行更一般的更改。 (built-in extensions