我是主题模型,分类等的新手......现在我已经做了一个项目并阅读了很多研究论文。我的数据集由人类标记的短消息组成。这是我到目前为止所提出的:
现在我来这里的原因是因为我希望得到以下问题的答案:
- LDA是解决我问题的好方法吗?
- 应该LDA连同分类器(NB,SVM,二进制相关性,Logistic回归,...)使用,或者是新的,未知的数据?
LDA“足够”用作分类器/估计器
- 我如何解释来自JGibbLDA / JGibbLabeledLDA的输出。如何从这些文件中获取一些信息,告诉我为WHOLE消息分配了哪些单词/标签(而不仅仅是每个单词)
- 我如何使用Weka / Meka在前一个问题中找到我想要的东西(如果LDA不是我想要的话)
醇>
我希望有人或不止一个人能帮助我弄清楚我是如何做到这一点的。一般的想法都不是问题,我只是不知道如何从文学到实践。大多数论文都没有给出足够的描述,说明他们是如何进行实验的,或者对于我对这些主题的背景来说过于技术性。
谢谢!