使用Java API将Parquet格式写入HDFS,而不使用Avro和MR

时间:2016-08-29 09:13:20

标签: java hadoop hdfs parquet

通过直接创建Pojo的Parquet Schema ,将 Parquet格式写入 HDFS (使用Java API)的简单方法是什么,没有使用 avro MR

我发现的样本已过时,使用弃用的方法也使用了Avro,spark或MR中的一种。

1 个答案:

答案 0 :(得分:5)

实际上,没有很多样本可用于在没有外部框架的帮助下读取/编写Apache镶木地板文件。

核心实木复合地板库是镶木地板,您可以在其中找到一些直接读/写的测试文件:https://github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/apache/parquet/io/TestColumnIO.java

然后您只需要使用与HDFS文件相同的功能。您可以按照此SOW问题:Accessing files in HDFS using Java

更新:响应API的弃用部分:AvroWriteSupport应该被AvroParquetWriter取代,我检查ParquetWriter它不被弃用,可以安全使用。

此致

卢瓦克