如何使用Gensim应用句子级LDA模型?

时间:2019-04-15 15:36:47

标签: python nlp gensim lda

是否可以像Bao和Datta(2014)所述使用Gensim应用句子级LDA模型?论文is here

其独特之处在于它使“每个句子假设一个主题”(第1376页)。这与其他句子级方法不同,后者通常允许每个句子包含多个主题。 “最直接的方法是将每个句子视为文档,并将LDA模型应用于句子而不是文档。” (第1376页)。但是,我认为假设一句话涉及一个主题更为合理。

谢谢!

1 个答案:

答案 0 :(得分:1)

您可以运行Brody&Elhadad(2010)所说的local-LDA-如果将文档拆分为句子,则只需逐个句子将文本数据输入LDA。但是,LDA仍然会为每个句子提供一个以上的主题(根据定义,您会获得所有主题的值,尽管gensim的minimum_probabiliy默认值为0.01),这当然与Bao&Datta。

但是,Bao&Datta(2014)的文章的supplemental material包含C或C ++(我认为,自述文件中未提及).exe以及材料中的用法说明。您可以只从命令行运行它,或者编写一个wrapper for Python(使gensim格式的输出锦上添花)-如果这样做,请共享您的代码,这可能会对其他人有所帮助。