假设我在Mahout中有一个用户/项目特征矩阵,并且我已经导出了用户的对数似然相似性并且已经识别出三个用户群集。现在我有一个具有一组项目的新用户(相同的格式和相同的项目集),如何在不重新计算相似性矩阵和重新复制过程的情况下为新用户分配这三个群集中的一个? 问题是如果我使用当前的聚类质心并计算对数似然相似性或任何距离度量,则质心不再是二进制。如果我使用k-medians,则存在全部为零的风险。有什么好方法可以解决这个问题?是否有您推荐使用的模型基础群集,特别是在MAhout中?
答案 0 :(得分:1)
如何训练集群的分类器?
为避免零,您可以使用k-medoids代替。这里的关键区别是k-medoids将从数据集中选择最中心的对象,因此它实际上具有与数据对象相同的稀疏性。
由于我不使用Mahout,我不知道Mahout是否可以使用。据我所知,它比k-means或k-medians更加计算密集。