SO的精彩人士,
我需要通过各种步骤处理(庞大的)数据集;每个步骤都可以涉及mapReduce(使用Disco),一般分布式处理(使用Celery)或服务器上的一些简单处理。我正在寻找可以帮助管理这样的工作流程的工作流引擎/库/框架。
我已经研究了很多选项,而spiff workflow似乎是最灵活的,但它似乎不支持状态转换的动作,而且它是单线程的(所以我不确定如何处理并行网关) 。
请告知管理此类工作流程/工作的方法/工具。如果有一个监控工具附带的框架(最好是基于网络或可以与Pyramid集成),那么更好。
提前致谢
答案 0 :(得分:0)
对于管道批处理数据处理任务,我们使用基于优秀Spotify's Luigi framework的解决方案。 central scheduler
调度和监控工具是基于Tornado的网络服务器。