应用错误收集

假设我有一个目录，其中包含一堆avro文件，我想一次性阅读它们。这段代码工作正常

Viewpager

但是，如果文件夹包含子文件夹，并且avro文件位于子文件夹中。然后我收到错误

val path = "hdfs:///path/to/your/avro/folder"
val avroRDD = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](path)

无论如何，我可以将所有avros（甚至在子目录中）读入RDD吗？

所有avros都有相同的架构，我在Spark 1.3.0

编辑::

根据下面的建议，我在我的火花壳中执行了这一行

5/10/30 14:57:47 WARN TaskSetManager: Lost task 0.0 in stage 1.0 (TID 6, 
hadoop1): java.io.FileNotFoundException: Path is not a file: /folder/subfolder

这解决了问题....但现在我的代码非常慢，我不明白mapreduce设置与spark有什么关系。

从嵌套目录结构中将多个avro文件读入RDD

0 个答案: