有没有办法读取除python apache beam中定义的文件列表之外的所有文件?

时间:2016-09-20 19:18:00

标签: python google-cloud-dataflow dataflow apache-beam

我的用例是我在一个桶中批处理文件,这个文件经常被新文件更新。我不想处理已经处理过的csv文件。

有办法吗?

我想到的一个可能的解决方案是使用一个文本文件来维护已处理文件的列表,然后读取除处理列表中的文件之外的所有csv文件。那可能吗?

或者是否可以读取特定文件列表?

1 个答案:

答案 0 :(得分:1)

没有一个很好的内置方法可以做到这一点,但你可以让你的管道的一个阶段计算要按照你的建议阅读的文件列表,使用一个将文件名映射到文件内容的DoFn 。有关如何编写此DoFn的信息,请参阅Reading multiple .gz file and identifying which row belongs to which file