S3DistCp可以结合.snappy.paruqet文件吗?

时间:2017-06-02 03:05:56

标签: apache-spark hive emr

S3DistCp可以将Spark应用程序输出的.snappy.parquet存储的多个文件合并到一个文件中,并让Hive可以读取生成的文件吗?

1 个答案:

答案 0 :(得分:0)

我还试图将较小的活泼镶木地板文件合并为较大的活泼镶木地板文件。 用过的 aws emr add-steps --cluster-id {clusterID} --steps file://filename.json 和 AWS Emr等待步骤完成--cluster-id {clusterID} --step-id {stepID}

命令运行正常,但是当我尝试使用parquet-tools读取合并的文件时,由于java.io.EOFException而读取失败。

与AWS支持团队联系。他们说,在镶木地板文件上使用s3distcp时存在一个已知问题,并且正在研究修补程序,但是该修补程序没有ETA。