在多维中定位“孤立点”

时间:2018-06-24 04:43:24

标签: r distance knn outliers

我有一个多维数据集,具有大约1万个点,具有200个数字列。我想有效地找出哪些点“隔离”了,因为它们离最近的n邻居很远。

例如在集合中

{(-3, 0.5), (-2.9, 0.6), (-3.1,0.4), (-3, 2), (-2.9, 2.1), (-3.1, 2.2), (1, 0.5), (1.1, 0.6), (0.9, 0.4), (1,2) }

(1,2)是孤立的,尽管它们的xy的值不是离群值。

我尝试了kNN的各种风格,以便找到与每个点最接近的邻居,然后确定这些点是否较远(例如,如果第n个邻居的距离与所有其他距离都离奇)。但是对于10K x 200,我最快的速度大约是40秒。由于我必须在代码中多次执行此操作,因此我正在寻找更快的东西。

有什么想法吗?

0 个答案:

没有答案