使用Weka进行文本分类

时间:2014-03-23 06:10:46

标签: classification weka feature-selection document-classification text-classification

我是Weka的初学者,我试图将其用于文本分类。我已经看到了如何将StringToWordVector过滤器进行分类。我的问题是,有没有办法在我分类的文本中添加更多功能?例如,如果我想在文本中添加POS标签和命名实体标签,我将如何在分类器中使用这些功能?

1 个答案:

答案 0 :(得分:2)

这取决于数据集的格式和执行的预处理步骤。例如,让我们假设您已经对POS文本进行了预标记,如下所示:

  

The_det dog_n barks_v ._p

因此,您可以构建一个特定的标记化器(请参阅weka.core.tokenizers)以生成每个单词的两个标记,其中一个是""而另一个将是" The_det"所以你要保留标签信息。

如果您只想标记单词,那么您可以确保" _"不是weka.core.tokenizers.WordTokenizer中的分隔符。

我的建议是同时使用单词和标记的单词,因此更简单的方法是编写一个连接文本和标记文本的脚本。来自一个包含"狗吠"还有另外一个" The_det dog_n barks_v ._p",它将生成一个带有" The_det dog dog_n barks barks_v的文件。 ._p&#34 ;.除非你打算使用n-gram,否则你甚至可能会忘记订单。