使短槌主题建模稳定

时间:2019-04-07 07:52:36

标签: nlp topic-modeling mallet

我正在使用槌槌主题建模工具,但很难使其稳定(我得到的主题似乎不太合逻辑)。

我处理了您的教程,其中一个是https://programminghistorian.org/en/lessons/topic-modeling-and-mallet#getting-your-own-texts-into-mallet,对此我有一些疑问:

  1. 是否存在一些使该模型起作用的最佳实践?除了optimize命令之外(什么是最佳数字)?什么是迭代命令的好数字?
  2. 我使用import dir命令导入数据。在那个目录中有我的文件。这些文件是否包含带有换行符或仅很长的行的文本有关系吗?
  3. 我了解了hLDA模型。当我尝试运行它时,我看到唯一的输出是不太清楚的state.txt输出。我希望获得类似主题建模模型的输出(topic_keys.txt,doc_topics.txt),如何获取它们?
  4. 何时应该使用hLDA而不是主题建模?

非常感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

一些有关主题建模的良好实践的参考文献是 The Care and Feeding of Topic Models与Jordan Boyd-Graber和Dave Newman,以及Applied Topic Modeling与Jordan Boyd-Graber和Yuening Hu。

对于超参数优化,--optimize-interval 20 --optimize-burn-in 50应该很好,它似乎对特定值不太敏感。 Gibbs采样的收敛性很难评估,默认的1000次迭代应解释为“一个足够大的数字,可能是可以的”,而不是一个特定的值。

如果要从目录中的文件中读取单个文档,则行无关紧要。如果在停用词删除之前,文档的长度超过1000个令牌,请考虑将其分成较小的段。

只包括hLDA是因为人们似乎想要它,我不建议出于任何目的。