如果数据集中的多个列都采用不同的格式,那么处理此类数据的最佳方法是什么?

时间:2015-10-19 07:27:50

标签: machine-learning feature-selection

比方说,数据集的长度和宽度等列可以是浮点数,也可以有一些二进制元素(是/否)或离散数字(变换为数字的类别)。简单地将所有这些作为特征使用而不必担心格式(或者更像是特征的性质)是什么意思?在进行规范化时,我们可以像连续数一样将离散数标准化吗?我对处理多种格式感到很困惑.....

1 个答案:

答案 0 :(得分:3)

  1. 是的,您可以规范化离散值。但它应该没有真实的 对学习的影响 - 如果你是正常化的话 做某种形式的相似性测量,但事实并非如此 对于因子变量。有一些特殊情况,如神经 网络,对输入/输出的规模是敏感的 权重大小(参见'消失\爆炸梯度'主题)。还有 如果您正在对数据进行聚类,那么会有所帮助。 聚类使用某种距离测量,所以它会 更好地使所有功能具有相同的规模。
  2. 除了某些内容之外,没有什么特别的分类内容 学习方法尤其擅长使用分类 功能,一些 - 使用实值特征,一些擅长 两者。
  3. 我对分类和实值特征混合的首选是使用一些基于树的方法(RandomForest或Gradient Boosting Machine)和第二个 - ANNs。

    此外,处理因子(分类变量)的极好方法是将它们转换为布尔变量集。例如,如果你有一个五个级别(1,2,3,4和5)的因子,一个好的方法是将它转换为5个特征,在一个代表其中一个级别的列中有1个。