有没有办法在读取avro到rdd时忽略零长度文件?

时间:2016-08-03 07:59:22

标签: java hadoop apache-spark hdfs

我在hdfs中有一个文件夹,其中包含我的spark作业的来源。一些文件的长度为零,因此我得到:IOExeption: Not an Avro data file。如果我删除它们一切正常,有没有办法忽略它们?

我用Java阅读Avro到rdd的方式:

JavaPairRDD<AvroWrapper<GenericRecord>, NullWritable> pairRDD =
        (JavaPairRDD<AvroWrapper<GenericRecord>, NullWritable>)sc.hadoopFile(inputPath, AvroInputFormat.class, AvroWrapper.class, NullWritable.class);

0 个答案:

没有答案