可能使用LSH比较具有多个属性的集合中的项目的技术

时间:2019-02-07 18:36:08

标签: data-science similarity cosine-similarity locality-sensitive-hash minhash

我有一个数据集,其中包含从许多不同来源收集的数百万个项目。每个项目都包含五十到一千个属性的列表。可用的特定属性因项目而异。

我正在寻找最佳方法,以找到与集合中给定目标成员最相似的项目。 (我显然想在不对集合中所有项目进行暴力比较的情况下完成此操作。)

我想与MinHash一起使用“本地敏感哈希”。但是,如果目标项目具有50个属性,而较大数据集中的可能匹配项目具有200个属性,则即使具有200个属性的项目包含目标项目的所有属性,MinHash也会将它们视为不相似。

用于比较具有不同数量属性的项目的最佳技术或算法是什么?

0 个答案:

没有答案