应用错误收集

许多群集算法不会提供解释。即使他们这样做，答案可能只是“因为集群中心X是最接近的”。特别是k-means是一种数值优化方法，可以编写为搜索特定数学方程的（局部）最小值。因此，实质上，回复是因为此群集分配最小化给定的等式。

在某种程度上，这是问题所固有的：聚类是一种无监督技术，通常基于诸如最小化方程或计算图形子集等概念（例如，在基于密度的聚类中，DBSCAN可被视为发现密度连接子图）

现在进入“大数据”时，解释并不重要。如果你只有几十个点，解释是好的。如果你有数十亿，那么谁会看看解释（如果它们会存在）呢？在诸如Mahout之类的系统中，通常甚至不计算精确解，而是近似。如果你需要尽快并且愿意放弃精确度，那么你可能也愿意放弃解释。

如果您想了解有关群集的更多信息，可以

如果您的数据集小到足以在单个系统上处理，我首先不会使用Mahout。对于真正巨大的数据集来说，只有才是合理的。所有Hadoop内容都会花费一些在单台计算机设置中不需要的开销。