关于文本分类的一般问题

时间:2014-03-02 19:41:14

标签: machine-learning weka lda topic-modeling text-classification

我是主题模型,分类等的新手......现在我已经做了一个项目并阅读了很多研究论文。我的数据集由人类标记的短消息组成。这是我到目前为止所提出的:

  • 由于我的数据很短,我读到了Latent Dirichlet Allocation(及其所有变体),这对于检测文档中潜在的单词非常有用。
  • 基于此,我找到了JGibbLDA http://jgibblda.sourceforge.net的Java实现,但由于我的数据被标记,因此对此进行了改进,称为JGibbLabeledLDA https://github.com/myleott/JGibbLabeledLDA
  • 在大多数研究论文中,我阅读了关于Weka的好评,所以我在我的数据集中搞砸了这个
  • 然而,我的数据集再次被标记,因此我找到了Weka的扩展名为Meka http://sourceforge.net/projects/meka/,其中包含多标记数据的实现
  • 阅读多标签数据,我知道最常用的方法,例如one-all-all和链分类器......

现在我来这里的原因是因为我希望得到以下问题的答案:

  1. LDA是解决我问题的好方法吗?
  2. 应该LDA连同分类器(NB,SVM,二进制相关性,Logistic回归,...)使用,或者是新的,未知的数据?
  3. LDA“足够”用作分类器/估计器
  4. 我如何解释来自JGibbLDA / JGibbLabeledLDA的输出。如何从这些文件中获取一些信息,告诉我为WHOLE消息分配了哪些单词/标签(而不仅仅是每个单词)
  5. 我如何使用Weka / Meka在前一个问题中找到我想要的东西(如果LDA不是我想要的话)
  6. 我希望有人或不止一个人能帮助我弄清楚我是如何做到这一点的。一般的想法都不是问题,我只是不知道如何从文学到实践。大多数论文都没有给出足够的描述,说明他们是如何进行实验的,或者对于我对这些主题的背景来说过于技术性。

    谢谢!

0 个答案:

没有答案