标签: duplicates hdfs bigdata apache-nifi tablename
我在使用 apache nifi 时遇到问题,我想将数据从数据库移动到 hdfs。当我移动它时,我有一个表年份和一列,我发现很多文件包含相同的表年份。 我必须做些什么才能删除重复的文件 我已经使用了 updateattribute 处理器,但我不知道如何使用它来解决问题 enter image description here
this pic show the duplicated files with the same content in hdfs directory