是否可以对单个文档使用主题建模

时间:2019-04-22 14:04:56

标签: lda topic-modeling topicmodels

对单个文档使用主题建模是合理的还是更精确地说在数学上可以对单个文档使用LDA-gibbs方法,如果这样,k和种子的值应该是多少? 同样,k和种子对于单个文档以及大型文档的作用是什么。

K和SEED是功能LDA的变量(在r studio中)。 还请让我知道我在这个问题的任何地方是否错了。

要介绍我的项目,我试图找出可以用来表示单个文档内容的主要主题。

我已经尝试过使用k = 4,7,10。我的问题还包括k的哪个值应该更好。

1 个答案:

答案 0 :(得分:0)

这实际上取决于文档。一个文档可以是一本700页的书,也可以是一个句子。您的k也将取决于文档,我认为您是指主题数?如果您的文档是整个Wikipedia语料库,那么如果您的文档是有关电影的评论列表,则1500个主题可能是合适的,那么20个主题可能是合适的。可以使用弯头方法检出17来优化该数字。

种子可以是非常随机的,它只是一个离开者,因此您的结果可以复制-如果将其保留为空白,它将运行。我会说尝试一下并检查您的连贯性,关注您的主题,如果看起来正确,那么请确保您可以在一个文档上训练LDA。单个文档应该可以非常快速地处理。

这是python中使用种子参数的示例。我的数据集是1,048,575行,请注意种子要高得多:

ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus,
   num_topics=20, alpha =.1, id2word=dictionary, iterations = 1000, 
   random_seed = 569356958)