我正在处理短文本的主题建模,并且遇到了三个关注相同的模型:biterm主题模型(BTM),单词网络主题模型(WNTM)和潜在特征LDA(LF- LDA)。
我知道对于传统的LDA(我使用R包主题模型实现它),文本文档的非结构化形状通过构造Document-Term矩阵(DTM)转换为计算机可读格式。
我想知道上面提到的模型是否使用类似的方式来实现,特别是如果它们也创建了一个类似于DTM的矩阵。有谁知道吗?不幸的是,我无法通过阅读原始论文找到这些信息。
提前谢谢!
答案 0 :(得分:0)
BTM和TKM(可能对短文本有用 - https://github.com/JohnTailor/tkm)不构造文档术语矩阵(DTM)。 WNTM可能会构建一个。我不知道LF-LDA。 BTM,WNTM和TKM使用滑动窗口考虑单词的位置,例如“房子是白色的”和“白宫是”可能会在某些设置下给出不同的结果。 DTM不捕获单词顺序,即。对于上面的例子,两者都会给出相同的DTM。在推断主题文档分发时,WNTM可能会从DTM中受益,但是对于其参数(单词主题)的推断,它不会受益。