我正在尝试使用Spark阅读镶木地板文件。 Spark版本是1.3.0。 当我尝试阅读时,我得到以下异常。任何帮助都非常感谢。 CDH版本:5.4.3
显示java.lang.NullPointerException 在parquet.format.converter.ParquetMetadataConverter.fromParquetStatistics(ParquetMetadataConverter.java:249) 在parquet.format.converter.ParquetMetadataConverter.fromParquetMetadata(ParquetMetadataConverter.java:543) 在parquet.format.converter.ParquetMetadataConverter.readParquetMetadata(ParquetMetadataConverter.java:520) 在parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:426) 在parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:381) 在parquet.hadoop.ParquetRecordReader.initializeInternalReader(ParquetRecordReader.java:155) 在parquet.hadoop.ParquetRecordReader.initialize(ParquetRecordReader.java:138) 在org.apache.spark.sql.sources.SqlNewHadoopRDD $$ anon $ 1.(SqlNewHadoopRDD.scala:153) 在org.apache.spark.sql.sources.SqlNewHadoopRDD.compute(SqlNewHadoopRDD.scala:124) 在org.apache.spark.sql.sources.SqlNewHadoopRDD.compute(SqlNewHadoopRDD.scala:66) 在org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277) 在org.apache.spark.rdd.RDD.iterator(RDD.scala:244) 在org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35) 在org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277) 在org.apache.spark.rdd.RDD.iterator(RDD.scala:244) 在org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35) 在org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277) 在org.apache.spark.rdd.RDD.iterator(RDD.scala:244) 在org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:70) 在org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41) 在org.apache.spark.scheduler.Task.run(Task.scala:70) 在org.apache.spark.executor.Executor $ TaskRunner.run(Executor.scala:213) 在java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) at java.util.concurrent.ThreadPoolExecutor $ Worker.run(ThreadPoolExecutor.java:615) 在java.lang.Thread.run(Thread.java:745)