我正在尝试构建余弦位置敏感哈希,因此我可以找到候选项类似的项目对,而无需比较每个可能的对。我有它基本上工作,但我的数据中的大多数对似乎在-0.2到+0.2范围内具有余弦相似性所以我试图非常精细地切割它并选择具有0.1及以上余弦相似度的东西。
我一直在阅读Mining Massive Datasets chapter 3。这涉及通过放大地方敏感家庭来提高候选对选择的准确性。我想我只是理解数学解释,但我很难看到我实际上是如何实现它的。
到目前为止我所拥有的内容如下
将此与mm.3的3.6.3进行比较,我的步骤是当我查看r位的波段时 - 如果r位具有相同的值,则一对电影通过AND步骤。我的OR步骤发生在桶中:如果电影都在任何桶中,则电影是候选对。
这本书建议我可以通过添加更多的AND和OR步骤来“放大”我的结果,但是我实际上不知道如何做到这一点,因为对于更多层的构造过程的解释是在成对检查方面平等,而不是提出桶数。
任何人都可以帮我理解如何做到这一点吗?