应用错误收集

我正在使用槌槌主题建模工具，但很难使其稳定（我得到的主题似乎不太合逻辑）。

是否存在一些使该模型起作用的最佳实践？除了optimize命令之外（什么是最佳数字）？什么是迭代命令的好数字？
我使用import dir命令导入数据。在那个目录中有我的文件。这些文件是否包含带有换行符或仅很长的行的文本有关系吗？
我了解了hLDA模型。当我尝试运行它时，我看到唯一的输出是不太清楚的state.txt输出。我希望获得类似主题建模模型的输出（topic_keys.txt，doc_topics.txt），如何获取它们？
何时应该使用hLDA而不是主题建模？

非常感谢您的帮助！

一些有关主题建模的良好实践的参考文献是 The Care and Feeding of Topic Models与Jordan Boyd-Graber和Dave Newman，以及Applied Topic Modeling与Jordan Boyd-Graber和Yuening Hu。

对于超参数优化，--optimize-interval 20 --optimize-burn-in 50应该很好，它似乎对特定值不太敏感。 Gibbs采样的收敛性很难评估，默认的1000次迭代应解释为“一个足够大的数字，可能是可以的”，而不是一个特定的值。

如果要从目录中的文件中读取单个文档，则行无关紧要。如果在停用词删除之前，文档的长度超过1000个令牌，请考虑将其分成较小的段。

只包括hLDA是因为人们似乎想要它，我不建议出于任何目的。