DBSCAN算法中是否存在最大数量的噪声/异常值?

时间:2018-03-20 04:31:39

标签: cluster-analysis noise outliers dbscan

我使用DBSCAN算法对空间数据集进行聚类,并生成大量噪声193000的250000数据。这是合理的金额吗?

2 个答案:

答案 0 :(得分:0)

取决于您的数据和问题。

如果我生成随机坐标,则100%噪声是合适的,因为数据是随机噪声。

答案 1 :(得分:0)

首先,要解决标题中的问题。通过制作eps 非常大,很容易得到没有噪点和所有点 在一个大集群中。通过使eps非常小,您可以轻松实现 使所有点都是噪点。一般来说,介于两者之间 是你在找什么。你的工作是找到一个产生的价值 一个有意义的聚类。那就是这句话的地方 @ Anony-Mousse进场了。

  

取决于您的数据和问题

正如他所建议的,如果你有统一的随机数据,也许全部 噪音是最好的答案。如果您有高斯随机数据, 也许一个有一些异常值的大集群是好的。但这是 应该可以帮助您了解 数据的结构。 改变eps后会发生什么?从您当前的群集 有很多噪点,当你逐渐增加eps时会发生什么? 它会逐渐在现有集群中添加一些噪点吗? 是否有一些地方将两个集群合并为一个集群?在那儿 集群数量突然发生变化的地方? 此外,您可以根据变量解释集群吗? 也许两个集群之间的区别在于所有的集群 某些变量的值很低,而另一个变量的值很高。考虑到你想要解决的任何问题, 集群是否将数据划分为有意义的组?尝试使用 用于在数据中找到含义的聚类。