应用于主题建模时,“增强”后面的详细信息

时间:2018-11-16 15:27:05

标签: r text-mining lda topic-modeling tidytext

我对Silge和Robinson的“使用R进行文本挖掘:一种整齐的方法”教科书中的“增强”功能有疑问。在语料库上运行了LDA之后,我正在应用“增强”功能为每个单词分配主题。

我得到了结果,但是不知道发生在“增强”后面的“幕后”,即如何使用贝叶斯框架确定每个单词的主题。是否仅基于条件概率公式,并使用p(topic | word)= p(word | topic)* p(topic)/ p(word)拟合LDA后估算?

如果有人可以提供有关“增强”功能的统计细节,我将不胜感激。您还可以提供文献记载的论文参考吗?

1 个答案:

答案 0 :(得分:1)

tidytext软件包是开源的,并且在GitHub上,因此您可以自己研究augment()的代码。我建议看

  • augment()用于 topicmodels 软件包
  • 中的LDA
  • augment()用于 stm 软件包
  • 中的结构主题模型

要了解有关这些方法的更多信息,结构主题模型上有一个出色的paper/vignette,我喜欢Wikipedia article for LDA