如何正确解释gensim主题?

时间:2016-04-27 20:35:46

标签: gensim

我以为这可能以前曾经讨论过,但不知何故我找不到答案,所以就在这里。

以下是使用某些客户调查中的gensim lsi生成的主题。我的问题是:

  1. 单词前面的减号和加号是什么意思?
  2. 这里我生成了5个主题,我可以生成更多。如何确定最佳主题数?例如,也许在第三个主题之后的统计数据中,其他一切都将是微不足道的。
  3. 任何建议都表示赞赏。

    0.527 *"兴趣" + 0.475 *"降低" + 0.376 *"费率" + 0.338 *"率" + 0.324 *"好" + 0.257 *"服务" 0.671 *"良好" + 0.586 *"服务" + -0.254 *"兴趣" + -0.251 *"降低" + -0.159 *" rate" + -0.150 *"费率" 0.600 *"大" + 0.351 *"容易" + 0.337 *"奖励" + 0.242 *"使用" + -0.167 *"服务" + 0.160 *"喜欢" -0.503 *"利率" + 0.499 *"率" + -0.39 *"伟大" + 0.364 *"高" + -0.289 *"降低" + 0.167 *"容易" -0.608 *"大" + 0.362 *"容易" + -0.303 *" rate" + 0.275 *"费率" + 0.244 *"使用" + -0.227 *"高"

1 个答案:

答案 0 :(得分:1)

LSI背后的主要机制是术语 - 文档矩阵(TDM)上的奇异值分解(SVD)。我不会在这里详细介绍,但如果您愿意,可以阅读SVD on wikipedia

生成的主题是术语的线性组合。选择这些线性组合(使用SVD)以创建TDM的“低秩近似”。

单词上权重的大小可以被认为是重要性:它们在近似原始TDM中有多重要。或者,更松散地说,主题在描述TDM所基于的语料库时有多重要。

权重的符号只相对于彼此是重要的(例如,你可以将所有内容乘以-1,如果你正确地重新解释线性组合,你将得到相同的解释)。如果可以根据每个主题的每个主题的程度对每个文档进行评级,则该符号会告诉您相关单词推送文档的方式。例如,在您提供的输出中,第二个主题中具有许多“兴趣”和“费率”字样的文档应该较低。另一方面,具有许多“良好”和“服务”外观的文档在第二个主题中应该很高。

至于确定最佳主题数量,它是特定于上下文的,但主要取决于语料库的大小。以下是一些一般性指南(摘自this answer):

  

作为一般规则,较少的维度允许对文本集合中包含的概念进行更广泛的比较,而更多维度允许更具体(或更相关)的概念比较。可以使用的实际维度数受集合中文档数量的限制。研究表明,大约300个维度通常会为中等大小的文档集合(数十万个文档)提供最佳结果,对于较大的文档集合(数百万个文档)可能提供400个维度。但是,最近的研究表明,根据文件集的大小和性质,50-1000维度是合适的。