我是WEKA的新人。
在我的数据集中,我有一个类型为数字的属性。在数据集中,有特定值表示为“缺失值”和“不适用”。
例如
0-缺少值 99999 - 代表不适用
对于“缺失值”,我可以使用“?”代表它,但是“不适用”怎么样?
我的问题是: - 1)我们如何告诉WEKA在计算均值或标准开发时不包括“不适用”值? 2)“不适用”值如何影响分类结果?
谢谢。
答案 0 :(得分:0)
这实际上可能是一个更适合stats.stackexchange.com的问题,尽管我承认这是一个特定于WEKA的问题。现在,WEKA中可能存在可以很好地处理缺失值问题的模型。我不知道WEKA,但我可能会有决策树实现为您优雅地处理这个问题。
但是,您可能首先要考虑几个基本注意事项,因为缺少要素值是一个难题。这些考虑必须通过WEKA中的任何自动功能来实现,因此最好事先使用您的领域知识来完成它们。
'不适用'是该功能缺失的方法之一。因此,根据您的数据集,可能会或可能不会区分“缺失”和“不适用”。在调用“缺失”值时,您只是说您没有价值。为什么会丢失?
功能中有许多可能的缺失原因,有些比其他原因更有害。在这种情况下,主要有三种选择:
最保守和最安全的选择显然是简单地删除该功能。在这样做时,创建一个额外的指示器功能会很有用,它可以简单地指示是否缺少原始功能。这些信息可能有助于拟合一个好的模型。
在选择采用这三种方法中的哪一种时,有几点需要考虑。