使用主题建模Java工具包

时间:2015-02-18 13:41:10

标签: topic-modeling mallet lingpipe

我正在进行文本分类,我想使用主题模型(LDA)。 我的语料库包含至少24,000个波斯新闻文件。语料库中的每个文档都是从新闻中提取的(关键字,权重)对的格式。

我看到了两个Java工具包:mallet和lingpipe。 我已经阅读了有关导入数据的mallet教程,它以纯文本形式获取数据,而不是我拥有的格式。有什么方法可以改变吗?

还阅读了一些关于lingpipe的内容,教程中的示例使用的是整数数组。大数据方便吗?

我需要知道哪种LDA实现对我更好?还有其他适合我数据的实现吗? (在Java中)

1 个答案:

答案 0 :(得分:0)

从关键字权重文件中,您可以创建一个包含具有给定权重的随机顺序的单词的人工文本。在如此生成的文本上运行mallet以检索主题。