用于混合分类和数字特征的机器学习算法

时间:2016-11-05 03:34:55

标签: machine-learning

我有一个1000个样本的训练数据集。它包含大约50个特征,其中30个是分类特征,其余特征是数字/连续特征。哪种算法最适合处理分类和连续特征的混合特征集?

2 个答案:

答案 0 :(得分:2)

通常,首选方法是将所有功能转换为标准化连续功能。

  1. 对于最初连续的要素,执行标准化:x_i =(x_i - mean(x))/ standard_deviation(x)。也就是说,对于每个要素,减去要素的平均值,然后除以要素的标准差。另一种方法是将连续特征转换为[0,1]范围:x_i =(x_i - min(x))/(max(x) - min(x))。

  2. 对于分类特征,对它们执行二值化,使每个值都是一个取值为0.0或1.0的连续变量。例如,如果您有一个分类变量"性别"可以采用MALE,FEMALE和NA的值,创建三个二进制二进制变量IS_MALE,IS_FEMALE和IS_NA,其中每个变量可以是0.0或1.0。然后,您可以按照步骤1执行标准化。

  3. 现在,您拥有标准化连续变量的所有功能。

答案 1 :(得分:0)

对分类或离散变量(即0或1)进行标准化不是一个好主意,因为归一化的输入将遵循超出训练范围的数据分布(例如0.5或0.7),而这些数据从来都不是输入的一部分信号。