应用错误收集

处理机器学习中的缺失值

时间：2020-03-07 19:48:01

标签： machine-learning statistics data-science missing-data feature-engineering

我正在分析一个数据集，其中的列名如下：[ id，位置，tweet，target_value ]。我想处理某些行中位置列的缺失值。所以我想从该行的 tweet 列中提取位置（如果tweet包含某个位置）本身，并将该值放在 location 列。

现在我对上述方法有一些疑问。

这是这样做的好方法吗？我们可以通过使用训练数据本身来填充一些缺失值吗？不会将其视为冗余功能（因为我们正在使用其他功能推导该功能的值）

1 个答案:

答案 0 :(得分：1)

能否请您澄清一下数据集？

首先，如果我们假设位置是发布的推文的信息，那么您的方法（在缺少该信息的行中填写位置列）将出错。

第二，如果我们假设该推文正确包含位置信息，那么您可以使用推文的位置信息填写缺失的行。

如果我们的第二个假设是正确的，那么这将是一个好方法，因为您正在向数据集提供正确的信息。换句话说，您将为模型提供更详细的信息，以便可以在测试过程中更正确地进行预测。

关于您有关的问题，“不会将其视为冗余功能（因为我们正在使用其他功能推导该功能的值）” ：

您可以尝试从模型中删除位置列，并使用其余3列来训练模型。然后，您可以使用不同的参数（准确性等）检查新模型是否成功。您可以将其与使用所有4个不同列训练的模型的结果进行比较。此后，如果没有任何重要差异或结果变得严重，则可以说，该列是多余的。您也可以使用主成分分析（PCA）检测相关列。

最后，请不要在测试数据集中使用训练数据。这将导致过度训练，并且当您在现实环境中使用模型时，您的模型很可能会失败。

相关问题

在scikits机器学习中缺少值

如何在python中处理机器学习中缺少的NaN

哪些分类器处理scikit中的缺失值学习0.16.1

用机器学习预测NA（缺失值）

如何在机器学习中处理缺失的数据？

有机会学习机器学习中的缺失值吗？

深度学习：如何处理缺失的标签值

如何在机器学习中处理文本数据的缺失值

使用机器学习中的列平均值估算缺失值

处理机器学习中的缺失值

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？