Spark输出文件命名方案

时间:2019-11-22 09:44:13

标签: apache-spark hadoop

我试图了解Spark在编写输出文件时使用的命名方案。 例如,我有以下输出:

2019-11-21 04:41:57  478988224 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c000.snappy.parquet
2019-11-21 04:41:57  369488615 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c001.snappy.parquet
2019-11-21 04:41:57   61498975 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c002.snappy.parquet
2019-11-21 04:41:57  478216284 part-00001-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c000.snappy.parquet
2019-11-21 04:41:57  367980988 part-00001-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c001.snappy.parquet

如果我们考虑单个文件名 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c000.snappy.parquet具有以下命名方案:part-<part-number>-<uid>-<c-part>.<compression>.<format>

uid零件来自哪里?是任务ID还是类似的东西? c-part是什么意思?命名方案是否根据使用的mapreduce.fileoutputcommitter.algorithm.version"进行更改?

0 个答案:

没有答案