使用机器学习中的列平均值估算缺失值

时间:2020-02-23 14:58:00

标签: python machine-learning data-science

我知道,插补缺失值恰恰是听起来的意思,我说的是用列均值插补。在将数据分为训练和测试之前,我通常会插补缺失值,但后来我看到QnA表示

警告:如果要将其用于机器学习/数据科学:从数据科学的角度来看,先替换NA然后拆分为训练并测试是错误的……您必须首先拆分为训练并测试,然后在火车上用平均数代替NA,然后应用此状态预处理模型进行测试,请参见下面涉及sklearn的答案! – Fabian Werner,19年8月28日,9:18

那是什么意思?我们能做到吗?以及我们该怎么做?在拆分数据之前或之后进行操作之间有什么区别吗?如果是,为什么?请帮助我理解,因为我对这件事很困惑。

1 个答案:

答案 0 :(得分:1)

是的,这是正确的陈述。首先,您应该将数据分为训练数据和有效/测试数据,计算训练数据的平均值并将其应用于有效/测试数据。

实际上,这与任何基于数据本身的处理有关。 如果对整个数据集进行计算和转换,则会将信息泄漏到数据中。但是我们希望有一个正确的验证,因此有效/测试数据集应该像训练一样处理