从嵌套目录结构中将多个avro文件读入RDD

时间:2015-10-30 15:04:58

标签: apache-spark avro

假设我有一个目录,其中包含一堆avro文件,我想一次性阅读它们。这段代码工作正常

Viewpager

但是,如果文件夹包含子文件夹,并且avro文件位于子文件夹中。然后我收到错误

val path = "hdfs:///path/to/your/avro/folder"
val avroRDD = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](path)

无论如何,我可以将所有avros(甚至在子目录中)读入RDD吗?

所有avros都有相同的架构,我在Spark 1.3.0

编辑::

根据下面的建议,我在我的火花壳中执行了这一行

5/10/30 14:57:47 WARN TaskSetManager: Lost task 0.0 in stage 1.0 (TID 6, 
hadoop1): java.io.FileNotFoundException: Path is not a file: /folder/subfolder

这解决了问题....但现在我的代码非常慢,我不明白mapreduce设置与spark有什么关系。

0 个答案:

没有答案