将推文分为4类

时间:2014-11-14 12:49:29

标签: python twitter lucene classification nltk

我已经提到了这个类似的查询twitter/facebook comments classification into various categories但我的问题有点不同。我有一些10k的推文,我想把它分为4类,即#34;旅行","购物","吃","播放"。 现在的问题是,由于推文的长度非常小,应该使用哪些工具将这些推文分类为这4个类别?删除停用词并清理注释后,它们的大小甚至更小,以保存足够的相关信息,将它们分为4类。在这种情况下,哪种算法最有效:"小文本"大小是。

我在某处读到我应该简单地使用Lucene而不是NLTK。但是作为我对Lucene的新手我真的不明白Lucene在这个多分类中会有什么帮助。

1 个答案:

答案 0 :(得分:0)

您可以尝试 naive bayes random forest ,也可以尝试使用EM之类的无监督算法(然后定义基于聚类分组的标签)。 谨防所有课程中使用的常用词语。您可以尝试使用AUC等评估您的表现。同时尝试找到选择功能的方法,称为互信息

祝你好运!