如何使用非标量输入数据/属性实现Kohonen贴图(SOM)

时间:2014-04-19 11:42:51

标签: algorithm machine-learning artificial-intelligence som

通常,仅使用实值向量的Kohonen映射/ SOM算法的实现是相对简单的任务。我想知道如何为非实值(即非标量)属性(如文本字符串)实现这样的算法,因为“权重更新”阶段。

假设有一组数据包含不同长度的词,意义类别,比如浪漫的程度,例如玫瑰(非常浪漫),花(浪漫),植物(浪漫视情况而定),工厂(只对浪漫小伙伴浪漫)。我正在努力,所以请忽略细节。 (编辑:是的,浪漫主义可以表示为标量值;我的问题实际上不是关于那个部分。)

我可以看到,人们可以在地图上创建原型,然后使用Levenshtein距离来找到最佳匹配单位。但是如何将更新 BMU及其邻域更新为选定的目标向量?

其他例子可能是绘制(例如通过颜色,主题,纪元......)或嵌入一维(标量)数据流中的感知形状(例如三角形,锯齿形......)。

1 个答案:

答案 0 :(得分:0)

那些浪漫主义的程度不仅仅是一个数字吗? "这朵玫瑰是0.9浪漫"。然后在SOM找到0.9的正确位置,这就是你的玫瑰应该坐的地方。如果你有多个维度,它基本上是一个向量,但仍然是一个数字向量,而不是一个字符串,因此更容易更新