写入地图后文件大小发生变化减少作业

时间:2018-05-20 13:44:52

标签: mapreduce pyspark hdfs

我使用saveAsHadoopFile通过pyspark在HDFS上写了一个tar文件。

当我对写入的文件执行hdfs dfs -du -s -h时,它以1:14的文件大小和复制文件大小比例显示它。 一段时间后,文件大小增加,比率降至1:3(可取)。

问题在于,我可以在写入后立即复制文件,但不能解析文件,因为它会导致长度错误不匹配。 stackoverflow link of error 然而,经过一段时间尺寸回到实际尺寸后,我能够做一个distcp。

0 个答案:

没有答案