如何推断针对Mahout TopicModel输出的新文档?

时间:2013-07-25 07:35:31

标签: machine-learning mahout lda inference topic-modeling

给出Mahout LDA CVB程序/离线批量执行的主题模型, 我想使用模型/在线Web服务调用来推断新文档。

这些文件对于新手和推理并不是很有帮助。 * https://builds.apache.org/job/Mahout-Quality/javadoc/org/apache/mahout/clustering/lda/cvb/TopicModel.html * http://svn.apache.org/viewvc/mahout/trunk/core/src/main/java/org/apache/mahout/clustering/lda/cvb/TopicModel.java?view=markup

我甚至无法在互联网或某处找到任何示例代码。

在这里,我想我可能想用Java代码做什么,

TopicModel model = new TopicModel();

Vector documentInTermFrequency = new RandomAccessSparseVector(); documentInTermFrequence.setQuick(termIdX, 10); documentInTermFrequence.setQuick(termIdY, 20);

Vector docTopic = new DenseVector(new Double[10] { 0.1, 0.1, ..., 0.1 }); // 0.1 probabilities

Vector documentTopicInference = model.infer(documentInTermFrequence, docTopic);

我还没有看到有人试过这样的事吗?有没有人试过这样的东西?

任何建议或指针都将受到高度赞赏。

0 个答案:

没有答案