hadoop中的数据重复

时间:2016-09-22 07:35:10

标签: java hadoop hdfs bufferedwriter cascading

我正在尝试从一些大文件中编写一些符合hadoop某些条件的记录。在级联中的每个功能中进行操作。在单元测试输出是正确的,但在尝试在hadoop中执行它时,一些行被写多次。可能是什么原因造成的。有没有人经历过这个问题。

在每次迭代中,我都会在临时文件中备份存储到上一次迭代的数据,并在所需文件中写入备份数据和新数据。这个过程一直持续到完成的最后一个记录。

0 个答案:

没有答案