我正在使用槌槌主题建模工具,但很难使其稳定(我得到的主题似乎不太合逻辑)。
我处理了您的教程,其中一个是https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet,对此我有一些疑问:
非常感谢您的帮助!
答案 0 :(得分:0)
一些有关主题建模的良好实践的参考文献是 The Care and Feeding of Topic Models与Jordan Boyd-Graber和Dave Newman,以及Applied Topic Modeling与Jordan Boyd-Graber和Yuening Hu。
对于超参数优化,--optimize-interval 20 --optimize-burn-in 50
应该很好,它似乎对特定值不太敏感。 Gibbs采样的收敛性很难评估,默认的1000次迭代应解释为“一个足够大的数字,可能是可以的”,而不是一个特定的值。
如果要从目录中的文件中读取单个文档,则行无关紧要。如果在停用词删除之前,文档的长度超过1000个令牌,请考虑将其分成较小的段。
只包括hLDA是因为人们似乎想要它,我不建议出于任何目的。