我想知道是否有办法强制sklearn NearestNeighbors算法,在有重复点时考虑输入数组中某个点的顺序。
举例说明:
>>> from sklearn.neighbors import NearestNeighbors
>>> import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
distances, indices = nbrs.kneighbors(X)
indices
>>>> array([[0, 1],
[1, 0],
[2, 1],
[3, 4],
[4, 3],
[5, 4]])
因为查询集与训练集匹配,所以每个点的最近邻居是点本身,距离为零。但是,如果我允许X中的重复点,那么算法可以理解,不区分重复:
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1],[3, 2],[-1,-1],[-1,-1]])
nbrs = NearestNeighbors(n_neighbors=2, algorithm='auto').fit(X)
distances, indices = nbrs.kneighbors(X)
indices
>>>> array([[6, 0],
[1, 0],
[2, 1],
[3, 4],
[4, 3],
[5, 4],
[6, 0],
[6, 0]])
理想情况下,我希望最后一个输出类似于:
>>>> array([[0, 6],
[1, 0],
[2, 1],
[3, 4],
[4, 3],
[5, 4],
[6, 0],
[7, 6]])
答案 0 :(得分:1)
我认为你不能这样做,因为我们得到了ref:
警告:关于最近邻居算法,如果是两个邻居, 邻居 k + 1 和 k ,距离相同但标签不同 结果将取决于培训数据的顺序。