是否可以像Bao和Datta(2014)所述使用Gensim应用句子级LDA模型?论文is here。
其独特之处在于它使“每个句子假设一个主题”(第1376页)。这与其他句子级方法不同,后者通常允许每个句子包含多个主题。 “最直接的方法是将每个句子视为文档,并将LDA模型应用于句子而不是文档。” (第1376页)。但是,我认为假设一句话涉及一个主题更为合理。
谢谢!
答案 0 :(得分:1)
您可以运行Brody&Elhadad(2010)所说的local-LDA-如果将文档拆分为句子,则只需逐个句子将文本数据输入LDA。但是,LDA仍然会为每个句子提供一个以上的主题(根据定义,您会获得所有主题的值,尽管gensim的minimum_probabiliy
默认值为0.01),这当然与Bao&Datta。
但是,Bao&Datta(2014)的文章的supplemental material包含C或C ++(我认为,自述文件中未提及).exe
以及材料中的用法说明。您可以只从命令行运行它,或者编写一个wrapper for Python(使gensim格式的输出锦上添花)-如果这样做,请共享您的代码,这可能会对其他人有所帮助。