我已经使用Spark 1.3.0并使用它将Parquet文件写入Openstack Swift Object store一段时间了。我使用大约12个分区的镶木地板文件,在Swift上将拼花文件分成几个部分。写文件没问题。但是当我尝试通过Spark阅读它时,我得到了这个错误:
ERROR Executor: Exception in task 9.0 in stage 2.0 (TID 22)
java.io.EOFException
at java.io.DataInputStream.readFully(DataInputStream.java:197)
at java.io.DataInputStream.readFully(DataInputStream.java:169)
at parquet.hadoop.ParquetFileReader$ConsecutiveChunkList.readAll(ParquetFileReader.java:730)
at parquet.hadoop.ParquetFileReader.readNextRowGroup(ParquetFileReader.java:490)
at parquet.hadoop.InternalParquetRecordReader.checkRead(InternalParquetRecordReader.java:116)
at parquet.hadoop.InternalParquetRecordReader.nextKeyValue(InternalParquetRecordReader.java:193)
at parquet.hadoop.ParquetRecordReader.nextKeyValue(ParquetRecordReader.java:204)
at org.apache.spark.rdd.NewHadoopRDD$$anon$1.hasNext(NewHadoopRDD.scala:143)
at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:39)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:327)
at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:308)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:327)
at org.apache.spark.util.collection.ExternalSorter.insertAll(ExternalSorter.scala:210)
at org.apache.spark.shuffle.sort.SortShuffleWriter.write(SortShuffleWriter.scala:63)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:68)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
at org.apache.spark.scheduler.Task.run(Task.scala:64)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:203)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
我正在使用通过https://github.com/openstack/sahara-extra/tree/master/hadoop-swiftfs提供的Hadoop-Swift补丁,这使得Hadoop能够将Swift识别为文件系统。
注1:如果将文件从Swift下载到本地文件系统,Spark可以完美地读取文件。
注意2:我也注意到如果我不对镶木地板文件进行分区,那么阅读是完美的。
任何使用Spark,Openstack Swift的人?
答案 0 :(得分:1)
我也一直在将Spark 1.3.0和Openstack Swift用作我的存储后端,并且遇到了完全相同的问题。
使用Spark的缓存功能提供了一个有效的解决方法,等待对hadoop-cloud的快速支持中的实际修复。
val df = spark.read.parquet("your_swift_url").persist()