动态主题模型有没有高效的python库,最好是扩展Gensim?

时间:2014-03-18 02:52:52

标签: python lda text-analysis topic-modeling gensim

我尝试使用主题模型对twitter流数据进行建模。 Gensim是一款易于使用的解决方案,其简洁性令人印象深刻。它有一个真正的LSI在线实现,但不适用于LDA。对于像twitter这样不断变化的内容流,动态主题模型是理想的选择。有没有办法,甚至是黑客 - 一种实施甚至是一种策略,我可以利用这种方式将Gensim用于此目的?

是否有任何其他python实现派生(最好)来自Gensim或独立?我更喜欢python,因为我想尽快开始,但如果有一些最佳解决方案,请提及它。

感谢。

3 个答案:

答案 0 :(得分:3)

Gensim(http://radimrehurek.com/gensim/models/dtmmodel.html)有一个原始的python包装器。 C ++代码。

答案 1 :(得分:3)

Gensim中的DTM包装器正在运行,但目前没有任何文档特别完整。在Gensim方面,最有用的是the DTM example埋藏在docs/notebooks中。这显示了所有输入变量需要的样子。有几点需要注意:

  • DTM模型已移至gensim.models.wrappers.dtmmodel
  • 必须设置
  • initialize_lda=True因为a bug in the DTM code(这将是以后的默认设置 - PR #676

您还需要一个有效的DTM编译版本(您提供该可执行文件的路径)。您可以尝试使用the appropriate executable from a github repo,但如果这不起作用,您可能需要通过运行包含的makefile来编译original code

答案 2 :(得分:2)

与David Blei和John Lafferty谈到了这一点,现在答案是否定的,没有。

Sean Gerrish的DTM implementation使用记录在案的内存泄漏,但在可管理的集合上工作。