Weka问题的文本分类

时间:2014-11-27 16:17:09

标签: text weka categorization

我是文本分类的新手,我想用WEKA实现它。我是否必须构建一个受监督的训练集,如下面的ARFF文件?我必须手动做吗? 在此之后,我该怎么办?使用朴素贝叶斯分类器来预测测试集的类别?

@relation test
@attribute text String
@attribute politics {yes,no}
@attribute religion {yes,no}
@attribute another_category {yes,no}

@data
"this is a text about politics",yes,no,no
"this text is about religion",no,yes,no
"this text mixes everything",yes,yes,yes

1 个答案:

答案 0 :(得分:0)

加载ARFF后,您可以应用StringToWordVector来构建单词列表。从那里,您可以使用分类器(例如朴素贝叶斯)来预测您的类(您可能需要过滤其他属性以确保它们也不用作分类器的输入)。

希望这有帮助!