标签: hadoop mahout lda
我有很多文件(让我们坐5000),我想在Mahout中使用tha cvb(LDA)从中提取一些主题。它有许多不同的参数,从潜在主题的数量(-k),最大迭代次数(maxIter),每个文档的最大迭代次数(-mipd),doc主题的平滑(-a),术语主题的平滑开始(-e),种子( - 种子)。我知道设置参数取决于我的应用程序,但最佳实践是什么?例如建议将-s设置为k / 50。
cvb
我对-mipd,-maxIter,-e。
seqsparse命令的参数如何?
seqsparse