为混合型数据增加自组织映射

时间:2013-10-22 02:18:18

标签: machine-learning self-organizing-maps

我正在尝试编写代码来为混合类型数据构建不断增长的SOM。我发现了一篇关于混合型数据(http://www.sciencedirect.com/science/article/pii/S1568494612001731)的交叉插入增长自组织地图的论文。这非常有趣,并以统一的方式处理分类和数字数据。但是,我的数据集具有可以具有多个值的变量/属性(例如:属性“兴趣”可以具有多个值 - 电影,体育等等......)。我陷入了处理这些属性的困境。任何输入如何处理混合类型数据集中的值集的属性?对于讨论这个问题的材料的参考将不胜感激。

1 个答案:

答案 0 :(得分:1)

在神经网络中使用分类属性时的一种常见做法是在多个二进制属性(true / false)中断开属性,对于分类属性的每个属性值都有一个属性。例如,如果您的属性“兴趣”的值为“电影”,“运动”,“烹饪”,那么您将分为三个属性,每个值一个,值为0/1的电影,值为0/1的运动用值0/1烹饪。唯一可以避免这种分割的情况是,可以对属性值进行排序,从而将其转换为单个数字属性。例如,如果您有关于质量的属性,其值为poor,medium和good,那么您只需将这些值映射到数字0,1,2或类似的值。你不能对“兴趣”这样的属性做同样的事情,因为如果你为电影分配0,为运动分配1,为烹饪分配2,那么你认为运动更像烹饪而不是电影当然是错误的。 当你的分类属性有很多可能的值而不只是三个时,不幸的是,事情变得非常糟糕。

https://stats.stackexchange.com/questions/21770/encoding-categorical-features-to-numbers-for-machine-learning

http://www.mathworks.com/support/solutions/en/data/1-8H0STM/index.html

google for

机器学习将分类转换为数字

你会发现很多资源和可能的优化问题。