如何将记录号添加到Apache Beam或Dataflow中的TextIO文件源

时间:2017-02-17 16:25:28

标签: dataflow beam

我正在使用Dataflow(现在是Beam)处理遗留文本文件以复制现有ETL工具的转换。当前进程添加记录号(每个文件中每行的记录号)和文件名。他们想要保留这些附加信息的原因是他们可以告诉源数据来自哪个文件和记录偏移量。

我想达到一个点,我有一个PCollection,其中包含文件记录号和文件名作为值或键的一部分中的附加字段。

我看过另一篇文章,其中文件名可以填充到生成的PCollection中,但是我没有添加每行记录号的解决方案。目前我能做到的唯一方法是在开始Dataflow流程之前预先处理文件(这很遗憾,因为我希望Dataflow / Beam能够完成所有这些工作)

非常感谢任何帮助或建议

由于

了Anant

0 个答案:

没有答案