使用saveAsTable将镶木地板数据写入S3无法完成

时间:2017-03-03 18:08:58

标签: amazon-web-services apache-spark amazon-s3 pyspark apache-spark-sql

在EC2机器上使用Spark 2.0.2,我一直在尝试使用分区将表格写入带有镶木地板的S3,但应用程序似乎永远不会完成。我可以看到Spark已将文件写入_temporary下的S3存储桶/文件夹中,并且一旦Spark saveAsTable JOB完成,应用程序就会挂起。

看一下s3,显示分区是使用文件夹分区内的数据生成的(点检查),但_temporary文件夹仍然存在,show tables不包含新表。

是否有其他人遇到此问题或有解决方案?

有谁知道saveAsTable命令下面发生了什么?

1 个答案:

答案 0 :(得分:0)

它没有挂起,只需将数据从临时存储复制到目的地,这需要花费大约数据/(10 MB / s)的时间。 Spark正在调用Hadoop的FileOutputCommitter来执行此操作,它认为它与Filesytsem交谈,其中rename()是一个瞬时事务。