标记的LDA用法

时间:2013-05-24 17:03:35

标签: machine-learning nlp lda topic-modeling

我正在开发一个需要应用主题模型LDA的项目。因为在我的情况下每个文件都很短,我必须使用Labeled LDA。我对这方面的知识不多,我需要做的就是将LLDA应用于我的数据。

在网上搜索后,我在Stanford TMT找到了LLDA实施。我从训练标记的LDA模型部分中理解的是:我应该在训练之前标记每个输入文档。我误解了什么吗?

如果我的理解是正确的,这将涉及标签文件的太多工作。相反,我可以提供单独的主题列表,并在没有标签的情况下训练文档吗?

1 个答案:

答案 0 :(得分:5)

您的理解是正确的:您需要在培训前标记每个输入文档。

Labeled LDA是一种监督方法,这意味着您需要一个带标签的数据集。

如果您“必须使用Labeled LDA”,您无法摆脱获取标记数据集的需要。 如果TMT中的LabeledLDA模型需要一个LabeledLDADocumentParams对象并创建它,则需要一系列标签。因此,没有标签可以训练标记的LDA模型。