标签: apache-spark amazon-emr
我正在使用Spark将Parquet格式的大型数据集写入HDFS,并且与Databricks相比,它在EMR中运行得相当慢。我意识到,如果我能够使用Hadoop 3.1,它将具有更高的性能,因为它具有高性能的输出提交器。是这种情况,如果是这样,什么时候会有使用Hadoop 3.1的EMR版本?我正在使用的当前版本是5.21。