WEKA:如何区分“缺失”和“不适用”的数字数据?

时间:2013-10-21 14:30:21

标签: machine-learning data-mining classification weka supervised-learning

我是WEKA的新人。

在我的数据集中,我有一个类型为数字的属性。在数据集中,有特定值表示为“缺失值”和“不适用”。

例如

0-缺少值 99999 - 代表不适用

对于“缺失值”,我可以使用“?”代表它,但是“不适用”怎么样?

我的问题是: - 1)我们如何告诉WEKA在计算均值或标准开发时不包括“不适用”值? 2)“不适用”值如何影响分类结果?

谢谢。

1 个答案:

答案 0 :(得分:0)

这实际上可能是一个更适合stats.stackexchange.com的问题,尽管我承认这是一个特定于WEKA的问题。现在,WEKA中可能存在可以很好地处理缺失值问题的模型。我不知道WEKA,但我可能会有决策树实现为您优雅地处理这个问题。

但是,您可能首先要考虑几个基本注意事项,因为缺少要素值是一个难题。这些考虑必须通过WEKA中的任何自动功能来实现,因此最好事先使用您的领域知识来完成它们。

'不适用'是该功能缺失的方法之一。因此,根据您的数据集,可能会或可能不会区分“缺失”和“不适用”。在调用“缺失”值时,您只是说您没有价值。为什么会丢失?

功能中有许多可能的缺失原因,有些比其他原因更有害。在这种情况下,主要有三种选择:

  1. 删除所有缺失值的记录
  2. 删除任何缺少值的功能
  3. 将任何缺失的值替换为应该是什么值的“猜测”。这称为插补。
  4. 最保守和最安全的选择显然是简单地删除该功能。在这样做时,创建一个额外的指示器功能会很有用,它可以简单地指示是否缺少原始功能。这些信息可能有助于拟合一个好的模型。

    在选择采用这三种方法中的哪一种时,有几点需要考虑。

    • 您是否确定99999是通过明确的NA决策生成的,而不是通过与0相同的机制生成的?通过什么机制生成零,因为您只是将它们描述为“误导”?
    • 这些显示缺失值的特征值有多常见?缺失的特征值越多,风险更高的案例删除或特征插补就越明显。
    • 如果您认为估算有价值,那么您的领域知识可以帮助您选择合适的价值吗?例如,如果仅在偏离某个值(例如高血压)时输入值,并且当它处于预期水平时保持空白,则在缺失的情况下将此值归为合理。