我是韦卡的新人。
我有关于特定公司的数据集(推特数据).. 我使用的过滤器:字符串到单词..我更改选项wordstokeep = 100,以提高准确性。 然后我应用了分类器: Kstar 55%,RandomForest 57%,SMO 58% 这些并不是最好的结果..
有什么想法,帮助我很好地改进它>>
答案 0 :(得分:0)
首先尝试预处理您的数据。 Twitter数据包含很多噪音。删除:
我还建议使用naiveBayesMultinomial分类器。它恰好在文本分类方面效果最佳,特别是情感分析.Plus它也超级快。如果您希望代码预处理数据,请告诉我:)