请告诉我如何在weka中表示文本分类的属性或类。通过使用什么属性我可以做分类?单词频率还是单词? ARFF格式可能的结构是什么?你能给我几行结构的例子吗?
非常感谢你。
答案 0 :(得分:11)
最简单的替代方法之一是从一个ARFF文件开始,解决两类问题:
@relation corpus @attribute text string @attribute class {pos,neg} @data 'long text with words ... ',pos
文本表示为String类型,类是带有两个值的名义。
然后你可以应用两个过滤器:
您可以在此Weka wiki页面中找到更多信息和其他方法来转换您的数据: http://weka.wikispaces.com/Text+categorization+with+WEKA