假设我有一个目录,其中包含一堆avro文件,我想一次性阅读它们。这段代码工作正常
Viewpager
但是,如果文件夹包含子文件夹,并且avro文件位于子文件夹中。然后我收到错误
val path = "hdfs:///path/to/your/avro/folder"
val avroRDD = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](path)
无论如何,我可以将所有avros(甚至在子目录中)读入RDD吗?
所有avros都有相同的架构,我在Spark 1.3.0
编辑::
根据下面的建议,我在我的火花壳中执行了这一行
5/10/30 14:57:47 WARN TaskSetManager: Lost task 0.0 in stage 1.0 (TID 6,
hadoop1): java.io.FileNotFoundException: Path is not a file: /folder/subfolder
这解决了问题....但现在我的代码非常慢,我不明白mapreduce设置与spark有什么关系。