标签: mapreduce pyspark hdfs
我使用saveAsHadoopFile通过pyspark在HDFS上写了一个tar文件。
当我对写入的文件执行hdfs dfs -du -s -h时,它以1:14的文件大小和复制文件大小比例显示它。 一段时间后,文件大小增加,比率降至1:3(可取)。
问题在于,我可以在写入后立即复制文件,但不能解析文件,因为它会导致长度错误不匹配。 stackoverflow link of error 然而,经过一段时间尺寸回到实际尺寸后,我能够做一个distcp。