机器学习中的预处理步骤

时间:2020-10-01 07:12:14

标签: python pandas machine-learning

为什么进行预处理如此重要,简单的步骤是什么?谁能帮忙。我正在使用python。

我有一个由空值组成的数据框。数据由异常值组成,而且分布不均匀。

我的问题是我应该遵循什么协议才能填充空值,应该删除异常值,因为这可能会导致信息丢失,并且使数据均匀分布的步骤是什么?

1 个答案:

答案 0 :(得分:0)

首先,使用哪种语言真的没关系。 python和R在数据科学中都很流行。

第二,您不能将原始数据插入任何机器学习模型。在需要清洁之前。以下是一些简单的步骤:

1。删除缺失值:很多时候,数据中存在缺失值。因此,您必须填写这些数据。问题如何产生?您可以用谷歌搜索出很多方法。

2。消除偏斜和异常值::通常,数据包含不在其他数据范围内的值。因此,您必须将这些数据带入该范围。

3。一键编码:需要将分类值转换为编码格式。

仍然有更多步骤,但是您可以通过谷歌搜索大量博客。