我正在使用mahout 0.8,在聚类数据后,我使用此命令查看结果:
mahout clusterdump --seqFileDir clusters / clusters-77 / --pointsDir 簇/ clusteredPoints /
此外,我想了解为什么行聚集在同一个集群中。我想,要了解这一点,我可以编写代码来查找群集中哪些特征/维度相似。
如果没有编写代码,我能找到为什么行聚集在同一个集群中的原因吗?
简而言之:我想了解群集的特征。
答案 0 :(得分:2)
许多群集算法不会提供解释。即使他们这样做,答案可能只是“因为集群中心X是最接近的”。特别是k-means是一种数值优化方法,可以编写为搜索特定数学方程的(局部)最小值。因此,实质上,回复是因为此群集分配最小化给定的等式。
在某种程度上,这是问题所固有的:聚类是一种无监督技术,通常基于诸如最小化方程或计算图形子集等概念(例如,在基于密度的聚类中,DBSCAN可被视为发现密度连接子图)
现在进入“大数据”时,解释并不重要。如果你只有几十个点,解释是好的。如果你有数十亿,那么谁会看看解释(如果它们会存在)呢?在诸如Mahout之类的系统中,通常甚至不计算精确解,而是近似。如果你需要尽快并且愿意放弃精确度,那么你可能也愿意放弃解释。
如果您想了解有关群集的更多信息,可以
如果您的数据集小到足以在单个系统上处理,我首先不会使用Mahout。对于真正巨大的数据集来说,只有 才是合理的。所有Hadoop内容 都会花费一些在单台计算机设置中不需要的开销。