为什么进行预处理如此重要,简单的步骤是什么?谁能帮忙。我正在使用python。
我有一个由空值组成的数据框。数据由异常值组成,而且分布不均匀。
我的问题是我应该遵循什么协议才能填充空值,应该删除异常值,因为这可能会导致信息丢失,并且使数据均匀分布的步骤是什么?
答案 0 :(得分:0)
首先,使用哪种语言真的没关系。 python和R在数据科学中都很流行。
第二,您不能将原始数据插入任何机器学习模型。在需要清洁之前。以下是一些简单的步骤:
1。删除缺失值:很多时候,数据中存在缺失值。因此,您必须填写这些数据。问题如何产生?您可以用谷歌搜索出很多方法。
2。消除偏斜和异常值::通常,数据包含不在其他数据范围内的值。因此,您必须将这些数据带入该范围。
3。一键编码:需要将分类值转换为编码格式。
仍然有更多步骤,但是您可以通过谷歌搜索大量博客。