应用错误收集

这实际上可能是一个更适合stats.stackexchange.com的问题，尽管我承认这是一个特定于WEKA的问题。现在，WEKA中可能存在可以很好地处理缺失值问题的模型。我不知道WEKA，但我可能会有决策树实现为您优雅地处理这个问题。

但是，您可能首先要考虑几个基本注意事项，因为缺少要素值是一个难题。这些考虑必须通过WEKA中的任何自动功能来实现，因此最好事先使用您的领域知识来完成它们。

'不适用'是该功能缺失的方法之一。因此，根据您的数据集，可能会或可能不会区分“缺失”和“不适用”。在调用“缺失”值时，您只是说您没有价值。为什么会丢失？

功能中有许多可能的缺失原因，有些比其他原因更有害。在这种情况下，主要有三种选择：

最保守和最安全的选择显然是简单地删除该功能。在这样做时，创建一个额外的指示器功能会很有用，它可以简单地指示是否缺少原始功能。这些信息可能有助于拟合一个好的模型。

在选择采用这三种方法中的哪一种时，有几点需要考虑。

您是否确定99999是通过明确的NA决策生成的，而不是通过与0相同的机制生成的？通过什么机制生成零，因为您只是将它们描述为“误导”？
这些显示缺失值的特征值有多常见？缺失的特征值越多，风险更高的案例删除或特征插补就越明显。
如果您认为估算有价值，那么您的领域知识可以帮助您选择合适的价值吗？例如，如果仅在偏离某个值（例如高血压）时输入值，并且当它处于预期水平时保持空白，则在缺失的情况下将此值归为合理。