测量二进制列表之间的相似性

时间:2018-10-23 10:00:29

标签: python matplotlib data-science similarity

我有两个要比较的二进制列表。为了进行比较,我求出每个对应值相等的总和,并将其转换为百分比:

import numpy as np

l1 = [1,0,1]
l2 = [1,1,1]

print(np.dot(l1 , l2) / len(l1) * 100)

打印66.666

因此,在这种情况下,就紧密度而言,l1和l2为61.666。随着每个列表的相似度降低,紧密度值减小。

例如使用值:

l1 = [1,0,1]
l2 = [0,1,0]

返回0.0

如何绘制l1l2来描述l1l2之间的关系?使用这种方法测量二进制值之间的相似性是否有名称?

使用散点图:

import matplotlib.pyplot as plt

plt.scatter( 'x', 'y', data=pd.DataFrame({'x': l1, 'y': l2 }))

产生:

enter image description here

但这没有意义吗?

更新:

”如果两个条目均为0,则不会增加您的“相似性”

使用以下更新的代码来计算相似性,此更新的相似性度量在计算最终分数时包括相应的0值。

import numpy as np

l1 = [0,0,0]
l2 = [0,1,0]

print(len([a for a in np.isclose(l1 , l2) if(a)]) / len(l1) * 100)

返回:

66.66666666666666

或者,将下面的代码与度量normalized_mutual_info_score一起使用,则对于相同或不同的列表返回1.0,因此normalized_mutual_info_score不是合适的相似性度量吗?

from sklearn.metrics.cluster import normalized_mutual_info_score

l1 = [1,0,1]
l2 = [0,1,0]

print(normalized_mutual_info_score(l1 , l2))

l1 = [0,0,0]
l2 = [0,0,0]

print(normalized_mutual_info_score(l1 , l2))

打印:

1.0
1.0

2 个答案:

答案 0 :(得分:1)

否,情节没有意义。实际上,您正在做的是向量之间的内部产品。根据此度量标准,l1l2被认为是3D(在这种情况下)空间中的向量,这可以衡量它们是否面向相同的相似方向并具有相同的长度。输出为标量值,因此没有要绘制的内容。

如果要显示每个组件的单独贡献,您可以可以做类似的事情

contributions = [a==b for a, b in zip(l1, l2)]
plt.plot(list(range(len(contributions)), contributions)

但是我仍然不确定这是否有意义。

答案 1 :(得分:0)

import numpy as np
import matplotlib.pyplot as plt

def unpackbits(a, n):
    ''' Unpacks an integer `a` to n-length binary list. ''' 
    return [a >> i & 1 for i in range(n-1,-1,-1)]


def similarity(a, b, n):
    ''' Similarity between n-length binary lists obtained from unpacking
    the integers a and b. '''
    a_unpacked = unpackbits(a, n)
    b_unpacked = unpackbits(b, n)
    return np.sum(np.isclose(a_unpacked, b_unpacked))/n


# Plot
n = 3
x = np.arange(2**n+1)
y = np.arange(2**n+1)
xx, yy = np.meshgrid(x, x)
z = np.vectorize(similarity)(yy[:-1,:-1], xx[:-1,:-1], n)

labels = [unpackbits(i, n) for i in x]
cmap = plt.cm.get_cmap('binary', n+1)

fig, ax = plt.subplots()
pc = ax.pcolor(x, y, z, cmap=cmap, edgecolor='k', vmin = 0, vmax=1)
ax.set_xticks(x + 0.5)
ax.set_yticks(y + 0.5)
ax.set_xlim(0, 2**n)
ax.set_ylim(0, 2**n)
ax.set_xticklabels(labels, rotation=45)
ax.set_yticklabels(labels)
cbar = fig.colorbar(pc, ax=ax, ticks=[i/n for i in range(n+1)])
cbar.ax.set_ylabel('similarity', fontsize=14)
ax.set_aspect('equal', adjustable='box')
plt.tight_layout()
plt.show()

enter image description here