什么定义了“完整的” Luigi任务?

时间:2018-10-25 13:53:45

标签: python-2.7 luigi

我正在构建我的第一个Luigi管道,目前正在构建依赖项之前分别测试任务。在测试期间,我使用以下主要方法的版本来构建任务:

if __name__ == "__main__":

    headers = dict()
    headers["Content-Type"] = "application/json"
    headers["Accept"] = "application/json"

    luigi.build[(CSVValidator(jsonfile = '/sample_input/sample_csv.json',
                docfile = None,
                error_limit = 2,
                order_fields = 3,
                output_file = 'validation_is_us.txt',
                header = headers)])

    luigi.run()

这是我的csv_validator的样子:

class CSVValidator(luigi.Task):
    jsonfile = luigi.Parameter()
    docfile = luigi.Parameter()
    error_limit = luigi.Parameter()
    order_fields = luigi.Parameter()
    output_file = luigi.Parameter()
    header = luigi.DictParameter()

    def output(self):
        return luigi.LocalTarget(self.output_file + "/csv_validator_data_%s.txt" % time.time())

    def run(self):
        output_file = self.output().open('w')
        files = {}
        data = {}
        files["jsonfile"] = open(self.jsonfile, 'rb')
        files["docfile"] = open(self.docfile, 'rb')
        data["error_limit"] = self.error_limit
        data["order_fields"] = self.order_fields
        r = requests.post(*****~~~~~*****~~~~~,
                      headers=headers,
                      data=data, files=files)
        task_response = r.text.encode(encoding="UTF-8")
        print type(task_response)
        print(task_response)
        jsontaskdata = json.loads(task_response)
        json.dump(jsontaskdata, output_file)
        print("validated")
        output_file.close()

但是,此任务实际上从未运行。相反,Luigi中央调度程序声称此任务已经完成:

===== Luigi Execution Summary =====

Scheduled 2 tasks of which:
* 1 complete ones were encountered:
    - 1 CSVValidator(...)
* 1 ran successfully:
    - 1 Downloader(...)

此进度看起来:),因为没有失败的任务或缺少依赖项

我创建的其他任务(例如Downloader)每次都能成功运行。什么在这里定义了完整的任务?我不明白这是什么意思。

感谢您的时间!

1 个答案:

答案 0 :(得分:0)

输出方法返回的目标对象定义任务是否完成。

如果某个输出文件已经存在或存在其他条件(包括外部资源的可用性),则可能会创建对象。例如,在luigi.contrib.esindex.py中,(检查)某个远程集群中ElasticSearch索引的存在将创建目标对象,并告诉您任务(CopyIndex)已完成。

您可能还希望查看以下答案:https://stackoverflow.com/a/34638943/4125622

这次讨论:https://github.com/spotify/luigi/issues/595