我有一个关于1998年至2008年水政策的报纸文章数据库。我想看看这期间报纸发布的变化情况。我的问题是,我应该使用动态主题建模还是主题随时间模型来处理此任务?它们是否会明显优于传统的LDA模型(我在其中根据整个文本语料库设置主题模型,并根据每个文档的标记方式绘制主题趋势)?如果是,是否有一个我可以用于R中的DTA / ToT模型的包?
答案 0 :(得分:3)
所以这取决于你的研究问题。
动态主题模型允许与给定主题关联最密切的单词随时间变化。介绍该模型的论文使用期刊条目[1]给出了一个很好的例子。如果您对各个主题的特征是否随时间变化感兴趣,那么这是正确的方法。
我之前没有处理过ToT模型,但它看起来类似于时间协变量是连续的结构主题模型。这意味着主题是固定的,但它们的相对普遍性和相关性可能会有所不同。如果您将文章分组为几个月 - 那么结构或ToT模型可以显示某些主题是否会随着时间的推移而变得更加普遍。
总而言之,您是否希望变体位于主题内或主题之间?您是否想要研究文章在他们所讨论的主题中的变化,或者您是否想要研究这些文章如何构建某些主题?
就R而言,你会遇到一些问题。 stm
包可以处理具有离散时间段的STM,但是我没有预先知道的ToT模型的预打包实现。对于DTM,我知道有一个C ++实现与介绍性文章一起发布,我有一个python版本,我可以找到你。
注意:我绝不会建议有人将简单的LDA用于文本文档。我总是把相关的主题模型作为基础,然后从那里构建。
修改:详细解释stm
包。
这个包是结构主题模型的实现[2]。 STM是相关主题模型的扩展[3],但允许在文档级别包含协变量。然后,您可以探索主题患病率与这些协变量之间的关系。如果您在日期中包含协变量,那么您可以探索单个主题相对于其他主题随时间变得或多或少的重要性。该软件包本身非常出色,快速和直观,并且包括选择最合适数量的主题等功能。
[1] Blei,David M.和John D. Lafferty。 "动态主题模型。"第23届机器学习国际会议论文集。 ACM,2006。
[2] Roberts,Margaret E.,et al。 "开放式调查响应的结构主题模型。"美国政治学杂志58.4(2014):1064-1082。
[3] Lafferty,John D.和David M. Blei。 "相关主题模型。"神经信息处理系统的进展。 2006。