所以我的数据库类中有一个问题,要求查找相同属性的两个值之间的距离(属性:工作类型;以及可能的值:电气,管道,维修)。所以管道和维修之间的距离。我将值转换为子属性并输入二进制数来表示值的存在与否,因此新值看起来像这样(电气:100,管道:010,修理:001)。我现在可以计算两个值之间的汉明距离。但我的问题是,在现实世界中,为什么我们甚至想要知道两个名义值之间的距离,当它们显然已经不同而一个没有比另一个更有价值时?
答案 0 :(得分:0)
只要 只有这样的变量,它几乎没用。
但假设您还具有“年龄”和“收入”属性,并且您想要对此数据集进行聚类,那么您需要一个距离函数。
不幸的是,二进制编码是一种不能很好地工作的黑客。您仍然需要仔细规范化数据,但年龄,收入,工作的正确权重是多少?你得到了一些结果,但是使用其他权重你也可能得到一个非常不同的结果。