我想使用聚类技术进行二进制数据分析。我通过调查收集了数据,其中我要求用户从94个产品功能列表中精确选择20个功能。我的数据中的列代表94个产品功能,行代表参与者。我试图根据他们选择的产品功能将不同用户组中的类似用户聚类。每个用户群还应该告诉我与每个群集相关的产品功能。我正在使用一些开源集群工具,如NCSS和JMP。我试图使用模糊聚类技术来实现我的目标,但不幸的是这些工具不处理二进制数据。你能告诉我哪种技术真的适合我的任务,还有哪些在线工具可以用来对我的数据进行聚类分析?由于时间限制,我不打算自己编码,我只是在寻找一些开源工具,它们具有可用的所有功能,我可以按原样使用。
答案 0 :(得分:3)
二进制数据的聚类实际上没有很好地定义。
您应该首先尝试回答一个简单的"而不是寻找可能会或可能不会通过反复试验工作的某些工具/功能。问题:
什么是好的集群,数学上?
不允许含糊不清的条款。接下来要回答的问题是:I)何时聚类A比聚类B更好(即计算机如何计算质量),以及ii)如何有效地找到它。
如果你只是通过调用随机函数来理解你在做什么,你就不会走得太远......
另外,实际上是在寻找你正在寻找的东西吗?大多数情况下使用二进制数据,例如频繁项集挖掘是更好的选择。