递归火花输入在EMR集群上停止工作

时间:2017-12-15 12:47:55

标签: apache-spark amazon-s3 amazon-emr

我有一个Spark-EMR作业,处理来自s3位置的数据。输入文件夹递归地有许多文件夹。

我正在使用sc.hadoopConfiguration.set(" mapreduce.input.fileinputformat.input.dir.recursive"," true")属性来处理递归输入。

直到最近几天,它工作正常但突然停止工作我不知道为什么,给FileNotFoundException

(....是一个目录     在org.apache.hadoop.fs.s3native.NativeS3FileSystem.open(NativeS3FileSystem.java:627)....)

我使用s3n作为文件系统。 有什么指针吗?

EMR版本:emr-5.7.0

0 个答案:

没有答案
相关问题