Mahout:如何使用SparseVector格式转换自定义文档以使用LDA

时间:2011-09-28 16:17:44

标签: mahout lda

我有一组文档,其中每行都有一定数量的字符串与“\ t | \ t”分隔。每个String(可以在其间包含空格)是不可分割的字典项。现在我必须使用LDA来找到这些文档之间关于每个dictionsr词(我的词汇中的字符串)的相关性。

请指导我如何将这些文件转换为备用矢量格式,然后如何在它们上应用LDA?

1 个答案:

答案 0 :(得分:0)

这是我发现可以回答您查询的最佳链接之一。

http://www.theglassicon.com/computing/machine-learning/running-lda-algorithm-mahout