如何查找哪个文档属于哪个群集?

时间:2019-05-20 02:34:13

标签: python gensim lda topic-modeling natural-language-processing

我是自然语言处理的新手,发现this有趣的教程,描述了如何进行主题建模。

本教程可用的data

源代码:here

以上代码可以使用LDA提供主题建模,并生成k个主题。我的问题是如何找到哪个文档属于哪个主题(群集)?类似于图here中所示的示例。我想知道类似的东西:

  

发布日期:20030219带有文本(aba ...)属于主题1集群   或..

我已经阅读了以下文章: [1][2],但我仍然找不到答案。

我也尝试过Matlab文本分析工具箱,但是我还不能弄清楚。

如果能给我任何帮助,那就太好了。

1 个答案:

答案 0 :(得分:1)

您可以像这样通过您的文档:

a = lda_model[bow_corpus[:]]

创建主题数组:

topic_0=[]
topic_1=[]
topic_2=[]

for i in a:
    topic_0.append(i[0][1])
    topic_1.append(i[1][1])
    topic_2.append(i[2][1])

然后将其放入csv中并找到最大值

d = {'topic_0': topic_0,
     'topic_1': topic_1,
     'topic_2': topic_2}

df = pd.DataFrame(data=d)
df.to_csv("YourCSV.csv", index=True, mode = 'a')

您还可以查看单行的得分:

lda_model[bow_corpus[123]]

我希望这会有所帮助:)