在应用分类算法之前,对分类数据进行预处理有哪些方法?

时间:2013-07-30 10:30:50

标签: statistics machine-learning

我是机器学习的新手,我正在研究分类(名义)数据的分类问题。我尝试将BayesNet和一些树和规则分类算法应用于原始数据。我能够达到0.85的AUC。

我还想通过预处理或转换数据来改进AUC。但是由于数据是分类的,我不认为不同列的日志转换,加法,乘法等在这里都可以使用。

有人可以列出应用于分类数据集的最常见转换吗? (我尝试过单热编码,但需要大量内存!!)

1 个答案:

答案 0 :(得分:2)

根据我的经验,分类最好处理一个热门编码(例如,转换为二进制向量),如您所述。如果内存是个问题,那么使用在线分类算法并在运行中生成修改后的矢量可能是值得的。

除此之外,如果类别代表范围(例如,如果类别代表一系列值,例如年龄,身高或收入),则可以对待中心(或某些适当的平均值,如果有&# 39; s内部标签分布)类别范围为实数。

如果您正在应用聚类,您还可以将分类标签视为轴上的点(1,2,3,4,5等),并适当缩放到其他要素。