Mahout 0.9 CVB文档主题映射错误

时间:2014-10-16 07:35:03

标签: java hadoop cluster-analysis mahout

我正在尝试使用最新版本的Mahout对文档集进行主题分析。

主题到术语映射的输出是适当的,每个主题都有具有相应概率的术语列表。

但是当我尝试将文档放到主题映射时,它只显示一组以某个字母开头的主题。就像在这种情况下所有主题以字母a

开头

以下是用于生成文档主题映射的示例代码:

VectorDumper.main(new String[] 
            { 
            "-i" , inputDocTopicsDir 
            , "-o", oututDocTopicsDir 
            , "-d", inputDictionaryDir 
            , "-dt", "sequencefile" 
            , "-sort", "true" 
            , "-vs", "10" });

示例输出 {2D:0.019996671414880783,3d:0.019994853350969108,4d:0.02000171234917903,5d:0.019994290328033588,a.config:0.01999309367417373,又名:0.02000227944902019,a.system:0.01999771644223781,AAA:0.020003361639812457,AAM:0.019990182999365072,AAPM:0.020012465032122083,AAPV:0.01999879522431889,AAR :0.019995543474585993,AAS:0.019995157547471696,AAV:0.02000267326012652,AB:0.020025978185034182,ABA:0.01999553819903237,放弃:0.020013355238553677,弃:0.01999559962237951,遗弃:0.019994194616256,放弃:0.02001433184497984,减污:0.01997728075793184,abberationa:0.020001189392395737}

1 个答案:

答案 0 :(得分:0)

这些是单词向量,而不是主题。主题建模与群集不同。

K-means聚类(您可能正在使用)将为您提供平均字数,而不是人们会直接接受的#34;主题"。没有k-means会给你结果"美式足球"作为一个主题。这不可以。使用有监督的技术。

你可能以某种方式截断了单词向量,它只给出了按字母顺序排列的第一个单词。

由于每个值接近0.02,您的结果可能已经退化为几乎随机的混乱。