处理回归(机器学习)中的未分配(null)特征值?

时间:2015-12-03 00:27:14

标签: python null machine-learning regression linear-regression

我想做线性回归分析。我有多个功能。某些功能对数据中的某些项具有未分配(null)值。因为对于某些项目,数据源中缺少某些特定的功能值。为了更清楚,我提供了一些例子: enter image description here

如您所见,某些项目缺少某些功能的值。现在,我只是将它分配给了Null'但是在对数据进行线性回归分析时如何处理这些值?我不希望这个未分配的值错误地影响回归模型。不幸的是,我无法摆脱未分配的特征值所呈现的项目。我计划使用Python进行回归。

1 个答案:

答案 0 :(得分:6)

您需要忽略这些行 - 您已经说过不能这样做了,并且对于缺失值的数量不是一个好主意 - 或者主动使用算法对这些项目进行折扣,或者将缺失的数据归为(这是填写有根据的猜测的技术术语)。

我们可以提供有限的帮助,因为您还没有向我们提供您想要丢失数据的语义。您可以使用您最喜欢的"最接近的匹配"来估算一些缺失的值。针对您拥有的数据的算法。例如,您可能能够从其他数据中推断出对区域的良好猜测。

对于非线性,离散项目(即区域),您可能希望将NULL保留为单独的区域。如果你缺少足够的参赛作品,那么无论如何你都能获得一个不错的模特。

一个简单的估算是用功能的平均值替换每个NULL,但这仅适用于具有适当平均值的那些(即区域)。

总的来说,我建议你搜索适当的参考文献"估算丢失的数据"。由于我们不确定您的需求,我们无法为此提供太多帮助,因此这样做超出了SO的范围。