我是自然语言处理的新手,发现this有趣的教程,描述了如何进行主题建模。
本教程可用的data
源代码:here
以上代码可以使用LDA提供主题建模,并生成k个主题。我的问题是如何找到哪个文档属于哪个主题(群集)?类似于图here中所示的示例。我想知道类似的东西:
发布日期:20030219带有文本(aba ...)属于主题1集群 或..
我已经阅读了以下文章: [1]或[2],但我仍然找不到答案。
我也尝试过Matlab文本分析工具箱,但是我还不能弄清楚。
如果能给我任何帮助,那就太好了。
答案 0 :(得分:1)
您可以像这样通过您的文档:
a = lda_model[bow_corpus[:]]
创建主题数组:
topic_0=[]
topic_1=[]
topic_2=[]
for i in a:
topic_0.append(i[0][1])
topic_1.append(i[1][1])
topic_2.append(i[2][1])
然后将其放入csv中并找到最大值
d = {'topic_0': topic_0,
'topic_1': topic_1,
'topic_2': topic_2}
df = pd.DataFrame(data=d)
df.to_csv("YourCSV.csv", index=True, mode = 'a')
您还可以查看单行的得分:
lda_model[bow_corpus[123]]
我希望这会有所帮助:)