我想将二进制文件保存在elasticsearch中,然后根据相似度分数(基于汉明距离)返回结果查询。这样我就可以检索最接近的那些(它将获得更高的分数)。
示例:
0000111100000000000000001 0000111100000000000000000
(汉明距离为1,接近高分)
0000111100001110000000001 0111110100000001111100000
(汉明距离为13,很远,得分很低)
我想带最近的,如果够近的话,发现它们几乎一样。
答案 0 :(得分:0)
您可能想看看FENSHSES(快速精确邻居) 最近的论文提出的在Hamming Space上进行Elasticsearch搜索)方法:
Mu,C,Zhao,J.,Yang,G.,Yang,B. and Yan,Z.,2019年10月。在全文搜索引擎上的汉明空间中进行快速,精确的最近邻搜索。在关于相似性搜索和应用的国际会议上(第49-56页)。湛史普林格。
在Elasticsearch的Hamming空间中进行最近邻居搜索似乎是最新技术。