在EC2机器上使用Spark 2.0.2,我一直在尝试使用分区将表格写入带有镶木地板的S3,但应用程序似乎永远不会完成。我可以看到Spark已将文件写入_temporary下的S3存储桶/文件夹中,并且一旦Spark saveAsTable JOB完成,应用程序就会挂起。
看一下s3,显示分区是使用文件夹分区内的数据生成的(点检查),但_temporary文件夹仍然存在,show tables不包含新表。
是否有其他人遇到此问题或有解决方案?
有谁知道saveAsTable命令下面发生了什么?
答案 0 :(得分:0)
它没有挂起,只需将数据从临时存储复制到目的地,这需要花费大约数据/(10 MB / s)的时间。 Spark正在调用Hadoop的FileOutputCommitter来执行此操作,它认为它与Filesytsem交谈,其中rename()是一个瞬时事务。