使用Akka Parquet读取FastParquet文件

时间:2019-06-05 15:10:46

标签: scala akka parquet akka-stream parquet-mr

我有一个使用Pandas和fastparquet生成Parquet文件的Python系统。这些将由在Akka流顶部运行的Scala系统读取。

Akka确实提供了a source for reading Avro Parquet files。但是,当我尝试读取文件时,我最终得到

java.lang.IllegalArgumentException: INT96 not yet implemented.

这是Scala应用程序正常工作无需阅读的专栏之一。我的问题是,考虑到生成的文件来自fastparquet,我是否可以指定架构并仅列出一列。

生成用于读取Parquet文件的源的相关代码段是:

.map(result => {
      val path = s"s3a://${result.bucketName}/${result.key}"
      val file = HadoopInputFile.fromPath(new Path(path), hadoopConfig)
      val reader: ParquetReader[GenericRecord] =
        AvroParquetReader
          .builder[GenericRecord](file)
          .withConf(hadoopConfig)
          .build()
      AvroParquetSource(reader)
    })

0 个答案:

没有答案