如何从Java中的Parquet文件中读取特定列

时间:2018-06-12 02:09:36

标签: apache parquet columnstore

我正在使用WriteSupport,它知道如何编写自定义对象' T'进入镶木地板。我感兴趣的是只读取写入Parquet文件的100个自定义对象列中的2或3个特定列

大多数在线示例都会扩展ReadSupport并读取整个记录。想要在不使用Spark,Hive,Avro,Thrift等东西的情况下完成

Java中的一个示例,它在Parquet中读取自定义对象的选定列

1 个答案:

答案 0 :(得分:0)

这篇文章可能会有所帮助。

Read specific column from Parquet without using Spark

  

如果只想读取特定的列,则需要在ParquetReader构建器接受的配置上设置一个读取模式。 (也称为投影)。

     

在这种情况下,您应该能够在AvroParquetReader构建器类上调用.withConf(conf),并在传入的conf中调用conf.set(ReadSupport.PARQUET_READ_SCHEMA,schema),其中schema是String中的avro模式。表格。