用于多个MapReduce步骤的Python工作流引擎

时间:2013-05-27 17:35:25

标签: python mapreduce workflow celery pyramid

SO的精彩人士,

我需要通过各种步骤处理(庞大的)数据集;每个步骤都可以涉及mapReduce(使用Disco),一般分布式处理(使用Celery)或服务器上的一些简单处理。我正在寻找可以帮助管理这样的工作流程的工作流引擎/库/框架。

我已经研究了很多选项,而spiff workflow似乎是最灵活的,但它似乎不支持状态转换的动作,而且它是单线程的(所以我不确定如何处理并行网关) 。

请告知管理此类工作流程/工作的方法/工具。如果有一个监控工具附带的框架(最好是基于网络或可以与Pyramid集成),那么更好。

提前致谢

1 个答案:

答案 0 :(得分:0)

对于管道批处理数据处理任务,我们使用基于优秀Spotify's Luigi framework的解决方案。 central scheduler调度和监控工具是基于Tornado的网络服务器。