关于潜在Dirichlet分配(MALLET)的问题

时间:2010-11-10 10:51:55

标签: nlp mallet

老实说,我不熟悉LDA,但我需要在我的一个项目中使用MALLET的主题建模。

我的问题是:给定一组特定时间戳内的文档作为主题模型的训练数据,使用模型(使用推理器)跟踪主题趋势,文档+或 - 的适当性如何训练数据的时间戳。我的意思是,如果在模型构建阶段我们只提供我需要分析的数据集的子集,那么MALLET提供的主题分布是一个合适的度量标准,用于跟踪主题随时间的流行度。

感谢。

3 个答案:

答案 0 :(得分:3)

你是famailiar与Latent Semantic Indexing?潜在Dirichlet分析只是做同样事情的一种不同方式,所以LSI或pLSI你可能更容易获得有关LDA目标的知识。

所有这三种技术都以无人监督的方式锁定主题(您告诉它要查找多少主题),然后假设每个文档以不同的比例覆盖每个主题。根据您分配的主题数量,它们可能更像子字段,无论您的语料库是什么,并且可能不像人们在考虑主题中的热门主题时所考虑的“主题”那样具体。新闻。

不知何故,我怀疑你想假设每个文件代表一个特定的主题。 LSI / pLSI / LDA不这样做 - 他们将每个文档建模为主题的混合。这并不意味着你不会得到好的结果,或者这不值得尝试,但我怀疑(虽然我对LSI文献没有全面的了解)你正在解决一个全新的研究问题

(FWIW,我怀疑使用像k-Means这样的聚类方法更容易模拟每个文档只有一个主题的假设。)

答案 1 :(得分:2)

您应该查看topic-models mailing list at Princeton。他们讨论与主题模型相关的理论和实践问题。

答案 2 :(得分:2)

我知道有三种跟踪主题受欢迎程度的方法。

  1. 听起来您可能会从动态主题建模方法中受益,该方法会查看主题随时间的变化情况。 Blei关于here的工作以及他home page上的一堆PDF有一个很好的视频概述。他有一个C语言包。

  2. 一个相关的方法是Alice Oh的主题字符串方法,她通过LDA获取来自时间片的文本的主题,然后使用主题相似性度量将来自不同时间片的主题链接到字符串(videoPDF)。看起来MALLET可能是主题字符串分析的一部分,但她没有提到她是如何进行LDA分析的。

  3. 最简单的方法可能是大卫·米姆诺在他的paper中所做的事情,在那里他根据主题中单词的时间顺序分布来计算主题的平均年份。他参与了MALLET的开发,所以可能完全使用了这个包。