应用错误收集

路透社21578数据集中的mahout导致错误的聚类结果

时间：2012-09-01 14:50:46

标签： mahout

我已经使用路透社21578数据集的一部分和mahout k-means进行聚类。更具体地说，我只提取了具有类别＆＃39;主题的独特价值的文本。我留下了9494个属于66个类别之一的文本。我使用seqdirectory从文本创建序列文件，然后使用seq2sparse来创建向量。然后我用余弦距离测量运行k-means（我也尝试过tanimoto和euclidean，没有更好的运气），cd = 0.1和k = 66（与类别数相同）。所以我尝试用silhouette measure使用自定义Java代码和剪影的matlab实现来评估结果（只是为了确保我的代码中没有错误）并且我得到了聚类的平均轮廓 0.0405 即可。知道最佳聚类可以使平均轮廓值接近1，我发现我得到的聚类结果并不好。那么，由于Mahout还是路透社数据集中的catgorization质量很低？

PS：我使用的是Mahout 0.7

PS2：抱歉我的英文不好......

1 个答案:

答案 0 :(得分：0)

我从来没有真正使用过Mahout，所以我不能说它默认情况下做了什么，但是您可以考虑检查它默认使用的距离度量标准。例如，如果度量标准是非标准化文档字数的欧几里德距离，则可能会出现质量非常差的集群质量，因为文档长度将主导文档之间的任何有意义的比较。另一方面，标准化或tf-idf加权字数的余弦距离之类的东西可以做得更好。

另一件需要关注的是路透社21578中的主题分布。它非常倾向于一些主题，如“acq”或“赚钱”，而其他主题只使用了少数几次。这可能很难实现良好的外部聚类指标。