LDA主题任务

时间:2016-10-12 20:10:48

标签: r topic-modeling

我有大约1,400个文件的语料库。我用tm包做了所有文本清理。我的最后一步是创建DTM矩阵。 我正在尝试根据人类检查的200份文件和分配的主题(类别)来训练LDA模型。 不幸的是,我不能分享这个可重复的例子。

有人可以帮助如何使用其中一个免费提供的数据集作为示例吗?

1 个答案:

答案 0 :(得分:0)

如果您有注释的训练数据,为什么不使用SVM或逻辑回归等监督分类技术,这些技术非常适合文本分类任务。 python中的Scikit-learn具有这些分类器的所有实现,您可以直接将它们用于分类目的。