我有一个大的(数据)工作,将输出写到hdfs。实木复合地板文件输出不是增量的。群集稍后(我认为)丢失了执行程序,导致工作失败。
这是我看到的输出:
part-00004-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00024-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00051-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00057-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00064-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
...
这是我期望的数据:
part-00001-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00002-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00003-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00004-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
part-00005-762ce553-134d-4b3f-a2f8-4291baebfdb7-c000.snappy.parquet
...
为什么不部分递增?我丢失了文件吗?