我正在构建我的第一个Luigi管道,目前正在构建依赖项之前分别测试任务。在测试期间,我使用以下主要方法的版本来构建任务:
if __name__ == "__main__":
headers = dict()
headers["Content-Type"] = "application/json"
headers["Accept"] = "application/json"
luigi.build[(CSVValidator(jsonfile = '/sample_input/sample_csv.json',
docfile = None,
error_limit = 2,
order_fields = 3,
output_file = 'validation_is_us.txt',
header = headers)])
luigi.run()
这是我的csv_validator的样子:
class CSVValidator(luigi.Task):
jsonfile = luigi.Parameter()
docfile = luigi.Parameter()
error_limit = luigi.Parameter()
order_fields = luigi.Parameter()
output_file = luigi.Parameter()
header = luigi.DictParameter()
def output(self):
return luigi.LocalTarget(self.output_file + "/csv_validator_data_%s.txt" % time.time())
def run(self):
output_file = self.output().open('w')
files = {}
data = {}
files["jsonfile"] = open(self.jsonfile, 'rb')
files["docfile"] = open(self.docfile, 'rb')
data["error_limit"] = self.error_limit
data["order_fields"] = self.order_fields
r = requests.post(*****~~~~~*****~~~~~,
headers=headers,
data=data, files=files)
task_response = r.text.encode(encoding="UTF-8")
print type(task_response)
print(task_response)
jsontaskdata = json.loads(task_response)
json.dump(jsontaskdata, output_file)
print("validated")
output_file.close()
但是,此任务实际上从未运行。相反,Luigi中央调度程序声称此任务已经完成:
===== Luigi Execution Summary =====
Scheduled 2 tasks of which:
* 1 complete ones were encountered:
- 1 CSVValidator(...)
* 1 ran successfully:
- 1 Downloader(...)
此进度看起来:),因为没有失败的任务或缺少依赖项
我创建的其他任务(例如Downloader)每次都能成功运行。什么在这里定义了完整的任务?我不明白这是什么意思。
感谢您的时间!
答案 0 :(得分:0)
输出方法返回的目标对象定义任务是否完成。
如果某个输出文件已经存在或存在其他条件(包括外部资源的可用性),则可能会创建对象。例如,在luigi.contrib.esindex.py
中,(检查)某个远程集群中ElasticSearch索引的存在将创建目标对象,并告诉您任务(CopyIndex)已完成。
您可能还希望查看以下答案:https://stackoverflow.com/a/34638943/4125622