Question

我正在研究使用情感分析和Weka根据预先标记的数据集将推文归类为3类之一。

数据集有以下形式的6个属性：

count(num), hate_speech(num), offensive_language(num), neither(num), class(num), tweet(string)

其中 class 和 tweet 是有趣的属性。 class属性是一个数值（0,1或2），tweet是一个包含推文原始文本的字符串。有谁知道如何做到这一点？在Weka中使用资源管理器时，可以进行很多配置，我不知道从哪里开始。作为第一步，我想使用Naive Bayes或SVM对推文进行分类。

Answer 1

基本上，使用StringToWordVector过滤器将推文文本拆分为单词，然后使用NaiveBayesMultinomial过滤器进行分类。

您也可以选择使用Weka的过滤器对文本进行预处理（全小写，词干等）。（也许在将数据加载到weka之前执行此操作 - 可能会为您节省大量的点击次数）。也把＃34;类＆＃34;数据文件最后位置的列。