Question

我正在尝试使用最新版本的Mahout对文档集进行主题分析。

主题到术语映射的输出是适当的，每个主题都有具有相应概率的术语列表。

但是当我尝试将文档放到主题映射时，它只显示一组以某个字母开头的主题。就像在这种情况下所有主题以字母a

开头

以下是用于生成文档主题映射的示例代码：

VectorDumper.main(new String[] 
            { 
            "-i" , inputDocTopicsDir 
            , "-o", oututDocTopicsDir 
            , "-d", inputDictionaryDir 
            , "-dt", "sequencefile" 
            , "-sort", "true" 
            , "-vs", "10" });

示例输出 {2D：0.019996671414880783,3d：0.019994853350969108,4d：0.02000171234917903,5d：0.019994290328033588，a.config：0.01999309367417373，又名：0.02000227944902019，a.system：0.01999771644223781，AAA：0.020003361639812457，AAM：0.019990182999365072，AAPM：0.020012465032122083，AAPV：0.01999879522431889，AAR ：0.019995543474585993，AAS：0.019995157547471696，AAV：0.02000267326012652，AB：0.020025978185034182，ABA：0.01999553819903237，放弃：0.020013355238553677，弃：0.01999559962237951，遗弃：0.019994194616256，放弃：0.02001433184497984，减污：0.01997728075793184，abberationa：0.020001189392395737}

Answer 1

这些是单词向量，而不是主题。主题建模与群集不同。

K-means聚类（您可能正在使用）将为您提供平均字数，而不是人们会直接接受的＃34;主题＆＃34;。没有k-means会给你结果＆＃34;美式足球＆＃34;作为一个主题。这不可以。使用有监督的技术。

你可能以某种方式截断了单词向量，它只给出了按字母顺序排列的第一个单词。

由于每个值接近0.02，您的结果可能已经退化为几乎随机的混乱。

Mahout 0.9 CVB文档主题映射错误

1 个答案: