我对Silge和Robinson的“使用R进行文本挖掘:一种整齐的方法”教科书中的“增强”功能有疑问。在语料库上运行了LDA之后,我正在应用“增强”功能为每个单词分配主题。
我得到了结果,但是不知道发生在“增强”后面的“幕后”,即如何使用贝叶斯框架确定每个单词的主题。是否仅基于条件概率公式,并使用p(topic | word)= p(word | topic)* p(topic)/ p(word)拟合LDA后估算?
如果有人可以提供有关“增强”功能的统计细节,我将不胜感激。您还可以提供文献记载的论文参考吗?
答案 0 :(得分:1)
tidytext软件包是开源的,并且在GitHub上,因此您可以自己研究augment()
的代码。我建议看
要了解有关这些方法的更多信息,结构主题模型上有一个出色的paper/vignette,我喜欢Wikipedia article for LDA。