PDI-如何跳过已处理的文件?

时间:2018-07-09 05:20:54

标签: kettle pentaho-data-integration pdi

在下面查看我的工作和转型:

Jobs Transformation

我想处理FTP和“共享”文件夹中的文件。如果有新文件,我们的团队每天都会在其中放置CSV文件。 FTP和共享文件夹中的文件将保留7天,然后再删除。

我的问题是,如果前一天我已经处理过A.csv,B.csv,那么今天我只希望处理C.csv而没有A.csv,B.csv,即使文件仍位于同一文件夹中,我也不会想要移动或删除已经处理过的文件。我该怎么做?

2 个答案:

答案 0 :(得分:0)

在同一目录中,使用“处理结果文件名”步骤和“复制”操作以及系统时间戳[获取系统信息步骤](文件处理的时间戳)来重命名文件,并删除原始文件。这样,您将把文件放在相同的文件夹/目录中,并且处理后的文件将带有时间戳。在这种情况下,即使重新运行,由于文件名的更改,作业处理的文件也不会被选择进行处理。

答案 1 :(得分:0)

更好地创建一个表并存储处理后的文件名。添加步骤以检查该表中是否存在文件名。如果不存在,则处理文件,否则跳过文件