应用错误收集

这取决于数据集的格式和执行的预处理步骤。例如，让我们假设您已经对POS文本进行了预标记，如下所示：

The_det dog_n barks_v ._p

因此，您可以构建一个特定的标记化器（请参阅weka.core.tokenizers）以生成每个单词的两个标记，其中一个是＆＃34;＆＃34;而另一个将是＆＃34; The_det＆＃34;所以你要保留标签信息。

如果您只想标记单词，那么您可以确保＆＃34; _＆＃34;不是weka.core.tokenizers.WordTokenizer中的分隔符。

我的建议是同时使用单词和标记的单词，因此更简单的方法是编写一个连接文本和标记文本的脚本。来自一个包含＆＃34;狗吠＆＃34;还有另外一个＆＃34; The_det dog_n barks_v ._p＆＃34;，它将生成一个带有＆＃34; The_det dog dog_n barks barks_v的文件。 ._p＆＃34 ;.除非你打算使用n-gram，否则你甚至可能会忘记订单。

使用Weka进行文本分类

1 个答案: