我正在开发一个需要应用主题模型LDA的项目。因为在我的情况下每个文件都很短,我必须使用Labeled LDA。我对这方面的知识不多,我需要做的就是将LLDA应用于我的数据。
在网上搜索后,我在Stanford TMT找到了LLDA实施。我从训练标记的LDA模型部分中理解的是:我应该在训练之前标记每个输入文档。我误解了什么吗?
如果我的理解是正确的,这将涉及标签文件的太多工作。相反,我可以提供单独的主题列表,并在没有标签的情况下训练文档吗?
答案 0 :(得分:5)
您的理解是正确的:您需要在培训前标记每个输入文档。
Labeled LDA是一种监督方法,这意味着您需要一个带标签的数据集。
如果您“必须使用Labeled LDA”,您无法摆脱获取标记数据集的需要。
如果TMT中的LabeledLDA
模型需要一个LabeledLDADocumentParams
对象并创建它,则需要一系列标签。因此,没有标签可以训练标记的LDA模型。