我是LDA的新生,我想在我的工作中使用它。但是,出现了一些问题。
为了获得最佳性能,我想估算最佳主题编号。在阅读"查找科学主题"后,我知道我可以先计算logP(w | z),然后用一系列P(w | z)的调和平均值估算P(w | T)
我的问题是"一系列"意思?
答案 0 :(得分:6)
不幸的是,没有硬科学对你的问题产生正确答案。据我所知,hierarchical dirichlet process (HDP)很可能是达到最佳主题数量的最佳方式。
如果您正在寻找更深入的分析,this paper on HDP会报告HDP在确定群组数量方面的优势。
答案 1 :(得分:2)
首先有些人使用调和平均来找到最佳主题但我也尝试了但结果并不令人满意。根据我的建议,如果你使用R,那么打包“ldatuning”会很有用。它有四个指标用于计算最佳参数。同样,基于困难和基于对数似然的V折叠交叉验证也是最佳主题建模的非常好的选择。对于大型数据集,V-折叠交叉验证有点耗时。您可以看到“启发式方法来确定适当的no.of主题在主题建模“。 重要链接: https://cran.r-project.org/web/packages/ldatuning/vignettes/topics.html https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4597325/
答案 2 :(得分:1)
答案 3 :(得分:0)
让k =主题数
没有唯一的最佳方法,我什至不确定是否有任何标准做法。
方法1: 试用不同的k值,选择可能性最大的一个。
方法2: 代替LDA,看看是否可以使用HDP-LDA
方法3: 如果HDP-LDA在您的主体上不可行(由于主体大小),则对您的主体进行统一采样并对其运行HDP-LDA,取HDP-LDA给定的k值。对于大约k的较小间隔,请使用方法1。