我有一个Pentaho工作,在其中一个转换中我想获取文件夹中的文件数。我尝试了两种不同的方法,但都需要花费2分钟才能执行。我想知道是否有一个步骤可以用来以更有效的方式做到这一点。
方法1 - 获取文件行数 - >设置变量
在我的获取文件行计数步骤中,我有目录和通配符(。*。xml)来获取文件夹中xml文件的数量。在内容选项卡中,我将文件计数保存到字段(fileCount),然后将其保存到变量中。对于包含3,722 xml文件的文件夹,运行时间为2:15。
方法2 - 获取文件名 - >分组依据 - >设置变量
使用这种方法,我有一个类似于“获取文件行计数”步骤的设置,但之后我按行动执行了一组“行数(没有字段参数)”。对于相同的3,722个文件,此方法在2:30运行。
我认为这些花了很长时间,因为它试图将文件存入内存,但我只关心计数。希望能找到一种方法来获得统计数据。