我在hdfs中有一个文件夹,其中包含我的spark作业的来源。一些文件的长度为零,因此我得到:IOExeption: Not an Avro data file
。如果我删除它们一切正常,有没有办法忽略它们?
我用Java阅读Avro到rdd的方式:
JavaPairRDD<AvroWrapper<GenericRecord>, NullWritable> pairRDD =
(JavaPairRDD<AvroWrapper<GenericRecord>, NullWritable>)sc.hadoopFile(inputPath, AvroInputFormat.class, AvroWrapper.class, NullWritable.class);