weka对数据集(stringToWord)进行分类

时间:2016-04-29 09:22:11

标签: machine-learning classification weka

我是韦卡的新人。

我有关于特定公司的数据集(推特数据).. 我使用的过滤器:字符串到单词..我更改选项wordstokeep = 100,以提高准确性。 然后我应用了分类器: Kstar 55%,RandomForest 57%,SMO 58% 这些并不是最好的结果..

enter image description here

有什么想法,帮助我很好地改进它>>

1 个答案:

答案 0 :(得分:0)

首先尝试预处理您的数据。 Twitter数据包含很多噪音。删除:

  1. URL
  2. 转推
  3. 主题标签
  4. 特殊字符 你可以做的另一件事是使用n-gram。尝试不同的n-gram并检查哪一个最适合你。我的看法是与unigrams + bigrams。
  5. 我还建议使用naiveBayesMultinomial分类器。它恰好在文本分类方面效果最佳,特别是情感分析.Plus它也超级快。如果您希望代码预处理数据,请告诉我:)