在字符串特征上查找欧几里德距离

时间:2013-11-23 08:38:53

标签: java machine-learning classification

我正在尝试实现K-Nearest Neighbors算法。我的数据集的值如下:

164     5.60    3.17    30.98   Present 44  25.99   43.20   53  1

178     0.95    4.75    21.06   Absent  49  23.74   24.69   61  0

我计划使用Euclidian Distance来计算两个向量之间的距离。我有问题如何计算两个字符串之间的ED,例如在上面的例子中“出现”和“缺席”?

1 个答案:

答案 0 :(得分:0)

您应该识别可能的值列表,具体取决于具体的问题域,例如“Absent”,“Present”,“Unknown”等。然后您应该将数值映射到每个字符串值,对应问题的域。您应该考虑映射数值的距离。例如,我会认为“缺席”和“呈现”比“缺席”和“未知”更多遥远。因此,我会将值映射为“Absent”:1,“Unknown”:0,“Present”: - 1。这在很大程度上取决于具体问题的范围。

然后,您将使用数值计算欧氏距离。

希望我帮忙!