应用错误收集

时间：2017-03-03 18:08:58

标签： amazon-web-services apache-spark amazon-s3 pyspark apache-spark-sql

在EC2机器上使用Spark 2.0.2，我一直在尝试使用分区将表格写入带有镶木地板的S3，但应用程序似乎永远不会完成。我可以看到Spark已将文件写入_temporary下的S3存储桶/文件夹中，并且一旦Spark saveAsTable JOB完成，应用程序就会挂起。

看一下s3，显示分区是使用文件夹分区内的数据生成的（点检查），但_temporary文件夹仍然存在，show tables不包含新表。

是否有其他人遇到此问题或有解决方案？

有谁知道saveAsTable命令下面发生了什么？

答案 0 :(得分：0)

它没有挂起，只需将数据从临时存储复制到目的地，这需要花费大约数据/（10 MB / s）的时间。 Spark正在调用Hadoop的FileOutputCommitter来执行此操作，它认为它与Filesytsem交谈，其中rename（）是一个瞬时事务。