我想为数据集中的每个 N 项计算前20个相似项。 每个项目都使用 M 维度的特征表示。因此,数据大小为 N_items X M_features 。
当我没有指定n_neighbors
(默认值为5)时,kneighbors
函数需要很多时间。
但是当我指定n_neighbors = N_items
时,它几乎可以立即得出结果。
即。 NN_object = NearestNeighbors()
需要花费大量时间才能找到kneighbors
,但NN_object = NearestNeighbors(n_neighbors=N_items)
会很快得出结果。
任何人都可以解释幕后发生的事情吗?
PS:N_items
在我的情况下 ~50K 而M_features
~10K 。