从Parquet读取特定列而不使用Spark

时间:2017-03-05 20:11:17

标签: scala parquet

我试图在不使用Apache Spark的情况下阅读Parquet文件,我能够做到,但我发现很难阅读特定的列。我无法找到谷歌的任何好资源,因为几乎所有帖子都是关于阅读使用的镶木地板文件。以下是我的代码:

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.avro.generic.GenericRecord
import org.apache.parquet.hadoop.ParquetReader
import org.apache.parquet.avro.AvroParquetReader

object parquetToJson{
  def main (args : Array[String]):Unit= {
 //case class Customer(key: Int, name: String, sellAmount: Double, profit: Double, state:String)
val parquetFilePath = new Path("data/parquet/Customer/")
val reader = AvroParquetReader.builder[GenericRecord](parquetFilePath).build()//.asInstanceOf[ParquetReader[GenericRecord]]
val iter = Iterator.continually(reader.read).takeWhile(_ != null)
val list = iter.toList
list.foreach(record => println(record))
}
}

注释掉的case类表示我的文件的模式,现在写上面的代码读取文件中的所有列。我想阅读具体的专栏。

1 个答案:

答案 0 :(得分:0)

如果您只想读取特定列,则需要在ParquetReader构建器接受的配置上设置读取架构。 (这也称为投影)。

在您的情况下,您应该可以在.withConf(conf)构建器类上调用AvroParquetReader,并在传入的配置中调用conf.set(ReadSupport.PARQUET_READ_SCHEMA, schema) schema是avro字符串形式的模式。