应用错误收集

是的，你可以做一些属性来定义单词的属性。根据您提供的信息，这还不够;这取决于你面临的问题。例如，在CONLL Shared Task 2003中，目标是确定单词是否在命名实体（人员，位置等）中，并且生成的数据如下所示：

U.N。 NNP I-NP I-ORG

NN I-NP O官方

Ekeus NNP I-NP I-PER

领导VBZ I-VP O

IN I-PP O

巴格达NNP I-NP I-LOC

。。 O O

如您所见，单词具有许多属性和类。例如，U.N.是一个专有名称（NNP），它位于名词短语（I-NP）的中间，它的类是＃34;进入命名实体，类型组织＆＃34; （I-ORG）。因此，要预测标签（最新功能，除了单词本身之外，您还可以使用其他一些功能。将此数据集写为ARFF非常简单。

然而，WEKA不能很好地适应单词分类问题，因为您通常会利用单词的上下文（前一个单词，或单词及其在目标单词周围的窗口中的特征），并且没有简单的过滤器WEKA得到这些窗户。例如，在前面的示例中，您需要以下内容：

联合国，官方，埃克乌斯，NNP，NN，NNP，I-NP，I-NP，I-NP，I-ORG，O，？

对于第二个词，如果是训练。您正在接受官方培训，包括其所有功能，前一个单词的功能以及以下单词中除课堂以外的所有功能（当您从左到右阅读时）。要训练的标签是倒数第二个（O）。如果你在预测，你有：

联合国，官方，埃克乌斯，NNP，NN，NNP，I-NP，I-NP，I-NP，I-ORG，？，？

但是你必须考虑你需要的功能，你将要使用的上下文，以及程序脚本来获得这种格式并将其提供给WEKA。 AFAIK没有工具可以做到这一点。