应用错误收集

时间：2010-11-10 10:51:55

标签： nlp mallet

老实说，我不熟悉LDA，但我需要在我的一个项目中使用MALLET的主题建模。

我的问题是：给定一组特定时间戳内的文档作为主题模型的训练数据，使用模型（使用推理器）跟踪主题趋势，文档+或 - 的适当性如何训练数据的时间戳。我的意思是，如果在模型构建阶段我们只提供我需要分析的数据集的子集，那么MALLET提供的主题分布是一个合适的度量标准，用于跟踪主题随时间的流行度。

感谢。

答案 0 :(得分：3)

你是famailiar与Latent Semantic Indexing？潜在Dirichlet分析只是做同样事情的一种不同方式，所以LSI或pLSI你可能更容易获得有关LDA目标的知识。

所有这三种技术都以无人监督的方式锁定主题（您告诉它要查找多少主题），然后假设每个文档以不同的比例覆盖每个主题。根据您分配的主题数量，它们可能更像子字段，无论您的语料库是什么，并且可能不像人们在考虑主题中的热门主题时所考虑的“主题”那样具体。新闻。

不知何故，我怀疑你想假设每个文件代表一个特定的主题。 LSI / pLSI / LDA不这样做 - 他们将每个文档建模为主题的混合。这并不意味着你不会得到好的结果，或者这不值得尝试，但我怀疑（虽然我对LSI文献没有全面的了解）你正在解决一个全新的研究问题

（FWIW，我怀疑使用像k-Means这样的聚类方法更容易模拟每个文档只有一个主题的假设。）

答案 1 :(得分：2)

您应该查看topic-models mailing list at Princeton。他们讨论与主题模型相关的理论和实践问题。

答案 2 :(得分：2)

我知道有三种跟踪主题受欢迎程度的方法。

听起来您可能会从动态主题建模方法中受益，该方法会查看主题随时间的变化情况。 Blei关于here的工作以及他home page上的一堆PDF有一个很好的视频概述。他有一个C语言包。
一个相关的方法是Alice Oh的主题字符串方法，她通过LDA获取来自时间片的文本的主题，然后使用主题相似性度量将来自不同时间片的主题链接到字符串（video ，PDF）。看起来MALLET可能是主题字符串分析的一部分，但她没有提到她是如何进行LDA分析的。
最简单的方法可能是大卫·米姆诺在他的paper中所做的事情，在那里他根据主题中单词的时间顺序分布来计算主题的平均年份。他参与了MALLET的开发，所以可能完全使用了这个包。