Spark:跳过缺少的S3文件

时间:2018-10-12 11:20:44

标签: scala apache-spark amazon-s3

是否可以将spark(版本2.3.1)配置为跳过丢失的s3文件。现在它会抛出一个org.apache.hadoop.mapred.InvalidInputException

latest version of spark中,有一个配置选项可简化此操作。想知道如何针对尚没有此配置选项的较旧版本进行操作。这就是我读取输入的方式,其中csvFiles是s3托管的csv文件的数组。

var filesRdd = sparkContext.textFile(csvFiles.mkString(","))

0 个答案:

没有答案