我正在编写一个python脚本来分析从设备捕获的一些数据。我想自动完成查找我的数据是否与某个模式匹配的任务。在下面给出的图像中,我想确定在给定的捕获数据集中,如果我可以使用脚本将我的数据分类为3个不同的簇[如图所示]。这些群集的范围未预定义。我想知道的是,如果我在数据中看到三个不同的集群,它们彼此相当分开 - 如果没有,那么我的测试失败了。我只是想弄清楚什么是最好的数据分析算法在这里使用。我正在阅读关于聚类算法的文章,并且将从K-means聚类开始,但是任何人都有更好的想法?
http://imgur.com/I4jMqpk [链接到一组捕获数据的示例 - 注意颜色编码的簇] [1]
答案 0 :(得分:0)
更好的想法是从一个好的问题陈述开始。如果您无法严格定义要查找的内容,则无法使用任何方法。如果您可以准确地写下您需要的内容,那么您可以搜索解决方案。聚类方法是非常奇怪的对象,它们总是“成功”,它们总是以某种方式聚类数据,这对于人类来说是完全不可接受的。如果您的数据看起来像是你绘制的(它是2d的情况,点是“密集”点云的一部分)那么最合适的东西就像DBScan / Optics,所以非常简单的方法,这将导致更像“人类” “集群(与k-means相反,它不会将你的数据划分为那些”云“,而是经常拆分它们。)