在大数据中查找缺失值

时间:2016-02-25 08:25:43

标签: java data-cleansing knime bigdata

我有许多需要分析的表格。目前数据正在被清理,因为它有很多缺失值。在某些情况下,只有一个值丢失,而其他大约200行。

问题

如何找到应该在行中插入的值?

我的方法

  1. 图表的简单线性外推。

  2. 查找值的平均值并将其插入所有缺失值。

  3. 如果缺少200个值,则取最后100个值和接下来的100个值的平均值。

  4. 虽然我可以想到上述所有方法,但我不确定它的效率或方法如何编写节点来实现这一点。

1 个答案:

答案 0 :(得分:2)

新的KNIME missing value node提供了许多替换缺失值的方法。它可以简单地用上一个和下一个非缺失值之间的均值或线性插值来代替。