Google DataFlow&阅读Parquet文件

时间:2017-01-21 08:30:33

标签: avro google-cloud-dataflow parquet apache-beam

尝试使用Google DataFlow Java SDK,但对于我的用例,我的输入文件是.parquet文件。

无法找到任何开箱即用的功能,可以将镶木地板作为有界数据源读取到DataFlow管道中。 据我了解,我可以基于Parquet Reader创建一个编码器和/或像AvroIO一样下沉。

有没有人可以建议如何实施它的最佳方法?或者指向我使用How-to \ examples?

的参考

感谢您的帮助!

- 甲

1 个答案:

答案 0 :(得分:3)

您可以在https://issues.apache.org/jira/browse/BEAM-214找到ParquetIO的进度(开箱即用的功能)。

与此同时,应该可以在BeamDataflow SDKs中使用Hadoop FileInputFormat读取Parquet文件。