尽管存在近似重复的唯一标识符生成

时间:2016-08-12 19:11:12

标签: algorithm duplicates uniqueidentifier signature locality-sensitive-hash

我有一个“实体解析”类型的用例,其中我有许多(<100)设备功能可用于许多(几百万)设备。我的目标是为这些设备生成ID。挑战在于同一设备可能有两个或更多略有不同的表示,但我仍然希望为所有设备分配相同的设备ID。

我希望你在这方面提出建议:

  1. 我应该应用哪种功能预处理?
  2. 哪种算法最符合我的目的?
  3. 如果有这种算法的标准实现,请提及。
  4. 谢谢和问候,

0 个答案:

没有答案