也许这是一个愚蠢的问题。我使用luigi和python编写了一个数据管道,该数据管道接收一些文件,将其清理,然后运行Monte Carlo Markov Chain模型。我需要多次运行此模型(使用不同参数进行25次仿真)。在我的笔记本电脑上运行一次模拟大约需要3-5个小时。有没有一种方法可以同时运行多个仿真(假设这受硬件限制),或者安排在第一个仿真完成后运行仿真,问题在于输出文件将具有相同的名称,我假设这意味着在第一个模拟之后运行的每个模拟都将被标记为完成,直到我删除这些输出文件为止
答案 0 :(得分:0)
当然可以。您只需要执行如下所述的根调度任务:https://luigi.readthedocs.io/en/stable/luigi_patterns.html#triggering-many-tasks
基本上,您只需创建一个根任务,该任务具有25组不同的参数集,并且需要具有这些参数的工作流。
编辑:如果需要先执行一项任务,只需在yield Task(params)
方法中使用run
(而不是require方法!)。