将Spark镶嵌文件写入S3存储桶后,Apache Spark挂起

时间:2015-08-26 14:56:39

标签: amazon-s3 apache-spark apache-spark-sql

我正在使用带有hadoop 2.6库的apache spark 1.3.1。我也在使用s3a协议。我的工作从s3存储桶读取数据,解析它,然后将一个镶木地板文件写入另一个存储桶。它工作正常,除了工作在完成时挂起并且永不退出。关于是什么导致这种情况的任何想法,我需要关闭一个资源吗?

代码非常基础:

val log: RDD[String] = sc.textFile("s3a://whatever/txt")
val records: RDD[MyRecord] = log.flatMap(parse)
records.toDF.saveAsParquetFile("s3a://something/else")
logInfo("Done")

一切顺利完成,然后我的工作就会挂起。

0 个答案:

没有答案