我正在进行数据挖掘简介的练习,并陷入以下问题:
哪种方法,Jaccard或汉明距离,更类似于 简单匹配系数,与哪种方法更相似 余弦测量?说明。 (注意:汉明测量是距离, 而其他三个措施是相似的,但不要让这个混淆 你。)
我认为汉明距离类似于SMC,因为他们都看着整个数据集并比较相似或不相似的数据点。但是本书的解决方案如下:
汉明距离类似于SMC。事实上,SMC =汉明 距离/位数。
解决方案出错吗?我认为汉明距离和SMC彼此不相等,汉明距离加上SMC等于1.
答案 0 :(得分:2)
汉明/长度= 1 - SMC
是非常强关系。因此,他们的能力等同于。
你认为“查看整个数据集”是错误的,每个都是在一对对象上定义的?
本练习的目的是练习你的基本数学技能,并将方程式转换为另一个。这是您经常需要的技能: