使用mallet进行主题建模

时间:2010-09-03 13:13:13

标签: nlp text-mining topic-modeling mallet

我正在尝试使用Mallet主题建模,但有一个问题。

我如何知道何时需要重建模型?例如,我从Web上抓取了大量文档,使用Mallet提供的主题建模,我可以创建模型并使用它推断文档。但加班,随着我抓获的新数据,可能会出现新的主题。在这种情况下,我如何知道是否应该从开始到当前重建模型?

我正在考虑为每个月抓取的文档这样做。有人可以建议吗?

因此,主题建模更适合于固定数量主题下的文本(输入参数k,主题编号)。如果没有,我该如何确定使用的号码?

1 个答案:

答案 0 :(得分:3)

您的问题的答案在很大程度上取决于您使用的数据类型和语料库的大小。

关于频率,我担心你只需要估算数据以有意义的方式改变的频率,并按照该速率进行改造。您可以从一周开始,看看新数据是否会导致模型显着不同。如果没有,请尝试两周,依此类推。

您选择的主题数量取决于您在模型中查找的内容。数字越大,结果越精细。如果您想要广泛了解语料库中的内容,可以选择10个主题。仔细看看,您可以使用200或其他适当高的数字。

我希望有所帮助。