我正在使用带有hadoop 2.6库的apache spark 1.3.1。我也在使用s3a协议。我的工作从s3存储桶读取数据,解析它,然后将一个镶木地板文件写入另一个存储桶。它工作正常,除了工作在完成时挂起并且永不退出。关于是什么导致这种情况的任何想法,我需要关闭一个资源吗?
代码非常基础:
val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")
一切顺利完成,然后我的工作就会挂起。