我有一个luigi工作流程,通过ftp下载一堆大文件并将它们存放在s3上。
我有一个任务可以读取要下载的文件列表然后创建一堆实际执行下载的任务
这个想法是这个工作流程的结果是一个单独的文件,其中包含已经成功的下载列表,第二天下次运行时会重新尝试任何失败的下载。
问题是,如果任何下载任务失败,则永远不会创建成功的下载列表。
这是因为动态创建的任务成为创建它们的主要任务的要求,并从其输出中编译列表。
有没有办法让这些下载任务失败无关紧要,以便编译列表减去失败任务的输出?
下面的示例代码,GetFiles是我们从命令行调用的任务。
class DownloadFileFromFtp(luigi.Task):
sourceUrl = luigi.Parameter()
def run(self):
with self.output().open('w') as output:
WriteFileFromFtp(sourceUrl, output)
def output(self):
client = S3Client()
return S3Target(path=someOutputPath, client=client, format=luigi.format.Nop)
@requires(GetListOfFileToDownload)
class GetFiles(luigi.Task):
def run(self):
with self.input().open('r') as fileList:
files = json.load(fileList)
tasks = []
taskOutputs = []
for file in files:
task = DownloadFileFromFtp(sourceUrl=file["ftpUrl"])
tasks.append(task)
taskOutputs.append(task.output())
yield tasks
successfulDownloads = MakeSuccessfulOutputList(taskOutputs)
with self.output().open('w') as out:
json.dump(successfulDownloads, out)
def output(self):
client = S3Client()
return S3Target(path='successfulDownloads.json', client=client)
答案 0 :(得分:1)
若干年后,您一定已经找到了答案,但这里有一些可以提供帮助的方法。
class DownloadFileFromFtp(luigi.Task):
sourceUrl = luigi.Parameter()
def run(self):
with self.output().open('w') as output:
WriteFileFromFtp(sourceUrl, output)
def on_failure(self, exception):
#If the task fails for any reason,
#then just indicate the task as completed.
#From the docs, exception is a string, so you can easily.
if "FileNotFound" in exception:
return self.complete(ignore=True)
return self.complete(ignore=False)
def complete(self, ignore=False):
return ignore
def output(self):
client = S3Client()
return S3Target(path=someOutputPath, client=client, format=luigi.format.Nop)
答案 1 :(得分:0)
我已经阅读了几次文档,但我没有发现非严重失败的迹象。话虽如此,通过覆盖DownloadFileFromFtp
中的Task.complete
方法可以轻松实现此行为,同时仍然可以在DownloadFileFromFtp.output
中使用GetFiles.run
。
通过覆盖return True
,无论下载成功与否,任务DownloadFileFromFtp
都会成功。
class DownloadFileFromFtp(luigi.Task):
sourceUrl = luigi.Parameter()
def run(self):
with self.output().open('w') as output:
WriteFileFromFtp(sourceUrl, output)
def output(self):
client = S3Client()
return S3Target(path=someOutputPath, client=client, format=luigi.format.Nop)
def complete(self,):
return True
但请注意,您还可以在complete
方法中使用更复杂的逻辑 - 例如,只有在任务在运行时遇到特定网络故障时才会失败。