路透社21578数据集中的mahout导致错误的聚类结果

时间:2012-09-01 14:50:46

标签: mahout

我已经使用路透社21578数据集的一部分和mahout k-means进行聚类。更具体地说,我只提取了具有类别'主题的独特价值的文本。我留下了9494个属于66个类别之一的文本。我使用seqdirectory从文本创建序列文件,然后使用seq2sparse来创建向量。然后我用余弦距离测量运行k-means(我也尝试过tanimoto和euclidean,没有更好的运气),cd = 0.1和k = 66(与类别数相同)。所以我尝试用silhouette measure使用自定义Java代码和剪影的matlab实现来评估结果(只是为了确保我的代码中没有错误)并且我得到了聚类的平均轮廓 0.0405 即可。知道最佳聚类可以使平均轮廓值接近1,我发现我得到的聚类结果并不好。 那么,由于Mahout还是路透社数据集中的catgorization质量很低?

PS:我使用的是Mahout 0.7

PS2:抱歉我的英文不好......

1 个答案:

答案 0 :(得分:0)

我从来没有真正使用过Mahout,所以我不能说它默认情况下做了什么,但是您可以考虑检查它默认使用的距离度量标准。例如,如果度量标准是非标准化文档字数的欧几里德距离,则可能会出现质量非常差的集群质量,因为文档长度将主导文档之间的任何有意义的比较。另一方面,标准化或tf-idf加权字数的余弦距离之类的东西可以做得更好。

另一件需要关注的是路透社21578中的主题分布。它非常倾向于一些主题,如“acq”或“赚钱”,而其他主题只使用了少数几次。这可能很难实现良好的外部聚类指标。