如何在weka中表示分类文本?

时间:2011-11-29 15:32:03

标签: java machine-learning classification weka arff

请告诉我如何在weka中表示文本分类的属性或类。通过使用什么属性我可以做分类?单词频率还是单词? ARFF格式可能的结构是什么?你能给我几行结构的例子吗?

非常感谢你。

1 个答案:

答案 0 :(得分:11)

最简单的替代方法之一是从一个ARFF文件开始,解决两类问题:

@relation corpus 

@attribute text string
@attribute class {pos,neg}

@data
'long text with words ... ',pos

文本表示为String类型,类是带有两个值的名义。

然后你可以应用两个过滤器:

  1. StringToWordVector ,将文本转换为单词矢量表示。过滤器使用每个单词的属性。您可以调整参数以选择二进制/频率表示,词干或停用词。最佳表示取决于问题。如果文本不长,通常二进制表示就足够了。
  2. 重新排序将类属性移动到最后一个位置,Weka认为它在那里。
  3. 您可以在此Weka wiki页面中找到更多信息和其他方法来转换您的数据: http://weka.wikispaces.com/Text+categorization+with+WEKA