应用错误收集

我使用saveAsHadoopFile通过pyspark在HDFS上写了一个tar文件。

当我对写入的文件执行hdfs dfs -du -s -h时，它以1:14的文件大小和复制文件大小比例显示它。一段时间后，文件大小增加，比率降至1：3（可取）。

问题在于，我可以在写入后立即复制文件，但不能解析文件，因为它会导致长度错误不匹配。 stackoverflow link of error 然而，经过一段时间尺寸回到实际尺寸后，我能够做一个distcp。