我丢失了实木复合地板文件吗?为什么part- <file-number>不递增?

时间:2019-05-07 15:03:21

标签: apache-spark hdfs parquet

我有一个大的(数据)工作,将输出写到hdfs。实木复合地板文件输出不是增量的。群集稍后(我认为)丢失了执行程序,导致工作失败。

这是我看到的输出:

part-00004-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00024-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00051-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00057-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00064-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
...

这是我期望的数据:

part-00001-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00002-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00003-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00004-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00005-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
...

为什么不部分递增?我丢失了文件吗?

0 个答案:

没有答案