在Mallet中使用预定义的主题

时间:2014-10-18 14:51:55

标签: nlp topic-modeling mallet

我希望使用Mallet按照我定义的主题对不同的文档进行分类。我知道Mallet将首先确定主题,然后对文档进行分类,但我想跳过第一步,因为我已经有一个主题列表,其中包含与之相关的单词。有没有办法使用我创建的预定义主题列表来使用Mallet对文档进行分类?

感谢任何指导。谢谢!

1 个答案:

答案 0 :(得分:1)

如果您正在进行无监督学习(没有培训示例,即每个主题的文档),您就不能轻易地设置主题。关键是训练算法事先不知道任何关于文档的知识。它只是根据您提供的功能尝试分离/分发它们。

如果您正在进行有监督的学习,那么主题实际上是课程,并且每个课程都有文档。然后该算法尝试了解哪些特征对于每个类是重要的。在mallet中你应该使用Classification模块。

可能有一些奇特的主题建模思想,它们根据特定的关键词合并/倾斜主题分布,但我认为Mallet不可能。