如何使用文本数据清理数据集并将其用于分类

时间:2017-12-28 15:52:42

标签: python pandas machine-learning

我正在研究具有许多缺失值和更多分类值的数据集上的性别分类器。我应该如何将分类值转换为数值以及我应该使用哪种算法来获得更高的准确度? https://github.com/lakshmipriya04/py-sample/

1 个答案:

答案 0 :(得分:0)

有两种类型的分类变量编码:创建虚拟变量并通过标签编码进行编码。

虚拟变量的缺失值将显示为每组虚拟列的空向量。对于标签编码,它可能是特定的类(标签)。

要解决缺失值问题,您可以通过平均值(数值)或模式(对于分类)来对它们进行处理。之前创建额外的missing-values-indication-column,如果值丢失则为1,否则为0。

通过插补,可以使用来自ML的任何分类器。尝试SVC(因为你有二进制分类)并从简单的逻辑回归开始。

没有插补只有XGBoost可以提供帮助(它允许在数据集中有缺失的值)。

但是你还有一个问题。您需要预处理文本。请阅读NLP。