用Pentaho计算缺失值的数量

时间:2016-01-29 00:15:46

标签: pentaho transformation missing-data

我是Pentaho的新手,我试图做一个非常简单的任务(我想),但我没有成功。我有一个CSV文件,其中包含多个列和行。我想计算每行每行中缺失值的数量。我试着这样做: From left to right "Extract from CSV" "group by" "Result in an excel file

我尝试使用#34;"盒子,但我真的不知道它是否合适。 你能给我一些提示或适当的方法来解决我的问题 Input line Expected result (Example)

第一张图片是文件中某些行的样本(包含69列和2 500 000行),第二张图片是期望结果(每行空值的数量)

1 个答案:

答案 0 :(得分:1)

可能还有其他一些方法可以执行此操作,但可以使用Modified Java Script步骤执行此操作。这样的事情将计算null的数量。

var fields = getInputRowMeta().getFieldNames();

var nulls = 0;
for (var i = 0; i < fields.length; i++) {
    if (row[i] == null) {
        nulls += 1;
    }
}

然后将nulls值输出到步骤中的行。