尝试使用Google DataFlow Java SDK,但对于我的用例,我的输入文件是.parquet文件。
无法找到任何开箱即用的功能,可以将镶木地板作为有界数据源读取到DataFlow管道中。 据我了解,我可以基于Parquet Reader创建一个编码器和/或像AvroIO一样下沉。
有没有人可以建议如何实施它的最佳方法?或者指向我使用How-to \ examples?
的参考感谢您的帮助!
- 甲
答案 0 :(得分:3)
您可以在https://issues.apache.org/jira/browse/BEAM-214找到ParquetIO的进度(开箱即用的功能)。
与此同时,应该可以在Beam和Dataflow SDKs中使用Hadoop FileInputFormat读取Parquet文件。