我使用DBSCAN算法对空间数据集进行聚类,并生成大量噪声193000的250000数据。这是合理的金额吗?
答案 0 :(得分:0)
取决于您的数据和问题。
如果我生成随机坐标,则100%噪声是合适的,因为数据是随机噪声。
答案 1 :(得分:0)
首先,要解决标题中的问题。通过制作eps
非常大,很容易得到没有噪点和所有点
在一个大集群中。通过使eps
非常小,您可以轻松实现
使所有点都是噪点。一般来说,介于两者之间
是你在找什么。你的工作是找到一个产生的价值
一个有意义的聚类。那就是这句话的地方
@ Anony-Mousse进场了。
取决于您的数据和问题
正如他所建议的,如果你有统一的随机数据,也许全部
噪音是最好的答案。如果您有高斯随机数据,
也许一个有一些异常值的大集群是好的。但这是
应该可以帮助您了解 数据的结构。
改变eps后会发生什么?从您当前的群集
有很多噪点,当你逐渐增加eps
时会发生什么?
它会逐渐在现有集群中添加一些噪点吗?
是否有一些地方将两个集群合并为一个集群?在那儿
集群数量突然发生变化的地方?
此外,您可以根据变量解释集群吗?
也许两个集群之间的区别在于所有的集群
某些变量的值很低,而另一个变量的值很高。考虑到你想要解决的任何问题,
集群是否将数据划分为有意义的组?尝试使用
用于在数据中找到含义的聚类。