我正在研究使用情感分析和Weka根据预先标记的数据集将推文归类为3类之一。
数据集有以下形式的6个属性:
count(num), hate_speech(num), offensive_language(num), neither(num), class(num), tweet(string)
其中 class 和 tweet 是有趣的属性。 class属性是一个数值(0,1或2),tweet是一个包含推文原始文本的字符串。有谁知道如何做到这一点?在Weka中使用资源管理器时,可以进行很多配置,我不知道从哪里开始。作为第一步,我想使用Naive Bayes或SVM对推文进行分类。
答案 0 :(得分:0)
基本上,使用StringToWordVector过滤器将推文文本拆分为单词,然后使用NaiveBayesMultinomial过滤器进行分类。
您也可以选择使用Weka的过滤器对文本进行预处理(全小写,词干等)。 (也许在将数据加载到weka之前执行此操作 - 可能会为您节省大量的点击次数)。也把#34;类"数据文件最后位置的列。