我在执行文本聚类时有一个与Mahout 0.9中的群集转储相关的问题 -
https://mahout.apache.org/users/clustering/clusteringyourdata.html
集群转储的一种情况是输出前k个kerms,为此你不指定参数p(pointsDir)。
群集转储的第二种情况是您指定参数p(pointsDir),并获得与群集关联的点。
两个输出都具有相同的集群ID,但案例1中显示的记录数量 - 显示热门术语的位置与案例2中显示的记录数量不同 - 您获得与集群关联的点数。
为什么会这样?我的意思是看到与特定群集相关的不同点数而不确定哪一个是正确的呢?
有没有人看到过这种情况?
提前谢谢!
答案 0 :(得分:0)
最后,在网上搜索了很多关于这个问题之后,我找到了一个讨论这个问题的链接 -
http://qnalist.com/questions/4874723/mahout-clusterdump-output
虽然引起我注意的是下面的解释 -
我认为报告的载体数量(n =)之间存在差异 集群和-cl实际聚集的点数 选项很正常。 *在最后一次迭代中,点被分配给(观察者) (分类为)基于距离测量的每个聚类和 从上一次迭代计算的聚类中心。 (n =)值 记录群集中“观察到的”点数 迭代。 *在最后一次迭代之后,计算新的聚类中心 每个集群。这使得中心移动了一些,小于 收敛阈值,但它移动。 *在随后的分类(-cl)步骤中,这些新的中心 用于对输出点进行分类。这将不可避免地 导致某些点被分配(观察到)(归类为)a 不同的集群,因此输出clusteredPoints将反映出来 这个最后的任务。 在一些小的,人为的例子中,聚类可能会更稳定 在最后的迭代和聚集点的输出之间。 我认为之间存在差异 集群报告的向量的数量(n =)和数量 实际上由-cl选项聚集的点是正常的。 在最后一次迭代中,点被分配给(观察者) (分类为)基于距离测量的每个聚类 并且从前一次迭代计算聚类中心。 (n =)值记录“观察”点的数量 该迭代中的集群。 在最后一次迭代之后,新的集群中心就是 为每个群集计算。这使得中心移动了一些 数量,小于收敛阈值,但它移动。 在随后的分类(-cl)步骤中,这些新的 中心用于对输出点进行分类。这将 不可避免地导致一些点被分配(观察到) (分类为)不同的集群等输出 clusteredPoints将反映此最终作业。 在一些小的,人为的例子中,聚类可能就是这样 在最终迭代和输出之间更稳定 聚集点。