我正在尝试实现K-Nearest Neighbors算法。我的数据集的值如下:
164 5.60 3.17 30.98 Present 44 25.99 43.20 53 1
178 0.95 4.75 21.06 Absent 49 23.74 24.69 61 0
我计划使用Euclidian Distance来计算两个向量之间的距离。我有问题如何计算两个字符串之间的ED,例如在上面的例子中“出现”和“缺席”?
答案 0 :(得分:0)
您应该识别可能的值列表,具体取决于具体的问题域,例如“Absent”,“Present”,“Unknown”等。然后您应该将数值映射到每个字符串值,对应问题的域。您应该考虑映射数值的距离。例如,我会认为“缺席”和“呈现”比“缺席”和“未知”更多遥远。因此,我会将值映射为“Absent”:1,“Unknown”:0,“Present”: - 1。这在很大程度上取决于具体问题的范围。
然后,您将使用数值计算欧氏距离。
希望我帮忙!