如何在Elasticsearch上计算两个二进制文件之间的汉明距离

时间:2019-04-11 13:31:04

标签: algorithm elasticsearch binary

我想将二进制文件保存在elasticsearch中,然后根据相似度分数(基于汉明距离)返回结果查询。这样我就可以检索最接近的那些(它将获得更高的分数)。

示例:

0000111100000000000000001 0000111100000000000000000

(汉明距离为1,接近高分)

0000111100001110000000001 0111110100000001111100000

(汉明距离为13,很远,得分很低)

我想带最近的,如果够近的话,发现它们几乎一样。

1 个答案:

答案 0 :(得分:0)

您可能想看看FENSHSES(快速精确邻居) 最近的论文提出的在Hamming Space上进行Elasticsearch搜索)方法:

Mu,C,Zhao,J.,Yang,G.,Yang,B. and Yan,Z.,2019年10月。在全文搜索引擎上的汉明空间中进行快速,精确的最近邻搜索。在关于相似性搜索和应用的国际会议上(第49-56页)。湛史普林格。

在Elasticsearch的Hamming空间中进行最近邻居搜索似乎是最新技术。