我希望有人可以帮我这个(请): 我想在一些文章特征(作者,类别,年份,影响因子,引用)之间做相似性 而且我不知道如何为名义数据做这件事,因为数字特征我可以做余弦相似性,但我怎样才能为名义数据做呢? 提前感谢大家!
答案 0 :(得分:0)
虽然我不想推荐这种方法,但它似乎非常受欢迎:
将您的类别编码为二进制属性。即:
A1=Car -> (1,0,0)
A1=Truck -> (0,1,0)
A1=Bike -> (0,0,1)
然后您可以像使用文字一样继续。这实际上与将它们视为三个不同的词语相同。
它会起作用,但恕我直言,没有相关的概念"在连续数值之外。在文本上,制作东西而不是一种好的方法更像是一种破解。