标称数据相似性的相关系数的最佳方法

时间:2014-04-18 05:25:52

标签: cluster-computing cluster-analysis similarity cosine-similarity

我希望有人可以帮我这个(请): 我想在一些文章特征(作者,类别,年份,影响因子,引用)之间做相似性 而且我不知道如何为名义数据做这件事,因为数字特征我可以做余弦相似性,但我怎样才能为名义数据做呢? 提前感谢大家!

1 个答案:

答案 0 :(得分:0)

虽然我不想推荐这种方法,但它似乎非常受欢迎:

将您的类别编码为二进制属性。即:

A1=Car   ->  (1,0,0)
A1=Truck ->  (0,1,0)
A1=Bike  ->  (0,0,1)

然后您可以像使用文字一样继续。这实际上与将它们视为三个不同的词语相同。

它会起作用,但恕我直言,没有相关的概念"在连续数值之外。在文本上,制作东西而不是一种好的方法更像是一种破解。