Question

我是自然语言处理的新手，发现this有趣的教程，描述了如何进行主题建模。

本教程可用的data

源代码：here

以上代码可以使用LDA提供主题建模，并生成k个主题。我的问题是如何找到哪个文档属于哪个主题（群集）？类似于图here中所示的示例。我想知道类似的东西：

发布日期：20030219带有文本（aba ...）属于主题1集群或..

我已经阅读了以下文章： [1]或[2]，但我仍然找不到答案。

我也尝试过Matlab文本分析工具箱，但是我还不能弄清楚。

如果能给我任何帮助，那就太好了。

Answer 1

您可以像这样通过您的文档：

a = lda_model[bow_corpus[:]]

创建主题数组：

topic_0=[]
topic_1=[]
topic_2=[]

for i in a:
    topic_0.append(i[0][1])
    topic_1.append(i[1][1])
    topic_2.append(i[2][1])

然后将其放入csv中并找到最大值

d = {'topic_0': topic_0,
     'topic_1': topic_1,
     'topic_2': topic_2}

df = pd.DataFrame(data=d)
df.to_csv("YourCSV.csv", index=True, mode = 'a')

您还可以查看单行的得分：

lda_model[bow_corpus[123]]

我希望这会有所帮助：）

如何查找哪个文档属于哪个群集？

1 个答案: