在非常高的水平上,这类似于最近邻居搜索问题。
在Wiki中:“给定空间M中的一组点S和一个查询点q∈M,找到S中最接近q的点。”
但是有一些显着差异。具体:
- 每个点由k个变量描述。
- 变量并非全都是数字。混合数据类型:
字符串,整数等。
- 未知的所有变量的所有可能值-但它们来自较小的集合。
- 在要搜索的数据集中,对于所有k个变量,将有多个具有相同值的点。
- 另一种看待这种情况的方式是重复点很多。
- 对于每个点,我们将重复次数称为频率。
- 鉴于查询点q需要找到最近的邻居p,使得p的频率至少为15
围绕NNS,统计分类和最佳bin匹配,似乎有各种各样的算法。
我在所有变化中都有些迷茫。我已经可以使用标准算法了吗?还是我需要修改一个?