是否可以将spark(版本2.3.1)配置为跳过丢失的s3文件。现在它会抛出一个org.apache.hadoop.mapred.InvalidInputException
。
在latest version of spark中,有一个配置选项可简化此操作。想知道如何针对尚没有此配置选项的较旧版本进行操作。这就是我读取输入的方式,其中csvFiles
是s3托管的csv文件的数组。
var filesRdd = sparkContext.textFile(csvFiles.mkString(","))