如何使用Java在HDFS中创建和填充Parquet文件?

时间:2017-03-19 11:44:32

标签: java hadoop hdfs parquet

在没有Hive或Impala库支持的情况下,使用Java在HDFS中创建和填充Parquet文件的最佳方法是什么?

我的目标是将一个简单的csv记录(String)写入位于HDFS中的Parquet文件。

之前提出的所有问题/答案都令人困惑。

1 个答案:

答案 0 :(得分:1)

似乎parquet-mr是可行的方法。它们为Thrift和Avro提供实现。自己的实现应该基于ParquetOutputFormat,可能看起来与执行转换的AvroParquetOutputFormatAvroWriteSupport类似。