计算两个相同数据集之间的汉明距离

时间:2015-04-03 03:21:13

标签: math dataset measure hamming-distance

如何计算相同点的两个数据集之间的汉明距离?两个数据集看起来完全相同 http://postimg.org/image/u11qnsolh/

有两个点数相同的数据集 总分数-19


第一个数据集有3个集群 群集A中有4个点 群集B中有2个点 群集C中有4个点

其余的点在群集之外


第二个数据集有3个集群 群集A中有8个点 群集B中有5个点 群集C中有6个点

1 个答案:

答案 0 :(得分:1)

首先,让我们为这些点编制索引:

enter image description here

您对两套套装之间的汉明距离感兴趣:

L = {{1,2,3,4},{5,6},{7},{8},{9},{10},{11},{12},{ 13},{14,15,17,18},{16},{19}}

R = {{1,2,3,4,5,6,7,8},{9,10,11,12,13},{14,15,16,17,18, 19}}


[ 1 ](第2节)进行调整,将汉明距离概括为两组X,Y,距离可定义为:

enter image description here

[ 2 ](第3.4节)进行调整,联合和两组集之间的差异可以定义为:

enter image description here

enter image description here

所以在你的情况下:

L⋃R= {{1,2,3,4,5,6,7,8},{9,10,11,12,13},{14,15,16,17, 18,19}}

L - R = {{}}

R - L = {{5,6,7,8},{1,2,3,4,7,8},{1,2,3,4,5,6,8} ,{1,2,1,4,5,6,7},{10,11,12,13},{9,11,12,13},{9,10,12,13},{9, 10,11,13},{9,10,11,12},{16,19},{14,15,17,18,19},{14,15,16,17,18}}

(LR)⋃(RL)= {{},{5,6,7,8},{1,2,3,4,7,8},{1,2,3,4 ,5,6,8},{1,2,3,4,5,6,7},{10,11,12,13},{9,11,12,13},{9,10,12 ,13},{9,10,11,13},{9,10,11,12},{16,19},{14,15,17,18,19},{14,15,16,17 ,18}}

所以

|(L-R)⋃(R-L)| = 13

|L⋃R| = 3

所以d(L,R)= 13/3 = 4.333


[1] 将汉明距离推广到有限集以达到对异质对象进行分类的目的[Bezem,Keijzer,Volmac]

[2] 概念模型中的模式匹配 - 一种正式的多模型语言方法[Delfmann,Herwig,Lis,Stein]