比方说,数据集的长度和宽度等列可以是浮点数,也可以有一些二进制元素(是/否)或离散数字(变换为数字的类别)。简单地将所有这些作为特征使用而不必担心格式(或者更像是特征的性质)是什么意思?在进行规范化时,我们可以像连续数一样将离散数标准化吗?我对处理多种格式感到很困惑.....
答案 0 :(得分:3)
我对分类和实值特征混合的首选是使用一些基于树的方法(RandomForest或Gradient Boosting Machine)和第二个 - ANNs。
此外,处理因子(分类变量)的极好方法是将它们转换为布尔变量集。例如,如果你有一个五个级别(1,2,3,4和5)的因子,一个好的方法是将它转换为5个特征,在一个代表其中一个级别的列中有1个。