标签: parquet parquet-mr
我需要使用Parquet-mr库以Java编程方式读取Parquet文件。我需要有选择地阅读几列,并跳过其他列(例如,从500列中读取3列)。我似乎找不到有关如何执行此操作的任何文档。有人可以指点我吗?
答案 0 :(得分:0)
不幸的是,这没有得到很好的记录。您可以查看一些示例here。这些使用了Parquet的ExampleParquetWriter类,但这仅用作示例。尽管如此,它仍然有效。
使用Parquet的正确方法是通过一种受支持的对象模型(例如Avro,Thrift或Protobuf)或通过实现自己的对象模型(从而获得最佳性能)。您可以阅读有关对象模型here的更多信息。