应用错误收集

Spark：跳过缺少的S3文件

时间：2018-10-12 11:20:44

标签： scala apache-spark amazon-s3

是否可以将spark（版本2.3.1）配置为跳过丢失的s3文件。现在它会抛出一个org.apache.hadoop.mapred.InvalidInputException。

在latest version of spark中，有一个配置选项可简化此操作。想知道如何针对尚没有此配置选项的较旧版本进行操作。这就是我读取输入的方式，其中csvFiles是s3托管的csv文件的数组。

var filesRdd = sparkContext.textFile(csvFiles.mkString(","))

0 个答案:

没有答案