用weka进行单词分类

时间:2014-09-07 06:05:11

标签: java machine-learning classification weka

Weka的Naive Bayes可以用来分类单词吗? 例如,我有这个培训数据:

很棒 - P
坏 - N
好 - P
谢谢 - P
...

我可以使用Naive Bayes分类器对新单词进行分类吗? 像这样:
唉 - N

1 个答案:

答案 0 :(得分:0)

是的,你可以做一些属性来定义单词的属性。根据您提供的信息,这还不够;这取决于你面临的问题。例如,在CONLL Shared Task 2003中,目标是确定单词是否在命名实体(人员,位置等)中,并且生成的数据如下所示:

  

U.N。 NNP I-NP I-ORG

     

NN I-NP O官方

     

Ekeus NNP I-NP I-PER

     

领导VBZ I-VP O

     

IN I-PP O

     

巴格达NNP I-NP I-LOC

     

。 。 O O

如您所见,单词具有许多属性和类。例如,U.N.是一个专有名称(NNP),它位于名词短语(I-NP)的中间,它的类是#34;进入命名实体,类型组织" (I-ORG)。因此,要预测标签(最新功能,除了单词本身之外,您还可以使用其他一些功能。将此数据集写为ARFF非常简单。

然而,WEKA不能很好地适应单词分类问题,因为您通常会利用单词的上下文(前一个单词,或单词及其在目标单词周围的窗口中的特征),并且没有简单的过滤器WEKA得到这些窗户。例如,在前面的示例中,您需要以下内容:

  

联合国,官方,埃克乌斯,NNP,NN,NNP,I-NP,I-NP,I-NP,I-ORG,O,?

对于第二个词,如果是训练。您正在接受官方培训,包括其所有功能,前一个单词的功能以及以下单词中除课堂以外的所有功能(当您从左到右阅读时)。要训​​练的标签是倒数第二个(O)。如果你在预测,你有:

  

联合国,官方,埃克乌斯,NNP,NN,NNP,I-NP,I-NP,I-NP,I-ORG,?,?

但是你必须考虑你需要的功能,你将要使用的上下文,以及程序脚本来获得这种格式并将其提供给WEKA。 AFAIK没有工具可以做到这一点。