应用错误收集

只要文件不那么大，我可以建议采用以下方法。

调用的函数
如果/tmp转到第4步中有文件。
如果/tmp中没有文件，请从S3下载新文件。
弹出数据，确保其余文件在处理时收缩。
处理弹出的数据块。
如果函数即将超时，请停止处理文件并再次调用自己（调用同级）。它可能在同一个容器中生成，也可能在另一个容器中生成，或者将开始处理另一个文件（来自其他运行）或继续执行相同的文件。
文件完全处理后-在S3中以某种方式标记（标记）。

这里有一些限制： -您不必关心文件的处理顺序以及文件中的行。 -偶尔对相同数据块进行多次处理不会造成任何问题。 -您可能想在外部也跟踪处理过的文件

Scheduler class of the sosw软件包中使用了非常相似的方法。这是不是C＃的Python程序包，但是这个想法可以为您提供帮助。