Weka的Naive Bayes可以用来分类单词吗? 例如,我有这个培训数据:
很棒 - P
坏 - N
好 - P
谢谢 - P
...
我可以使用Naive Bayes分类器对新单词进行分类吗?
像这样:
唉 - N
答案 0 :(得分:0)
是的,你可以做一些属性来定义单词的属性。根据您提供的信息,这还不够;这取决于你面临的问题。例如,在CONLL Shared Task 2003中,目标是确定单词是否在命名实体(人员,位置等)中,并且生成的数据如下所示:
U.N。 NNP I-NP I-ORG
NN I-NP O官方
Ekeus NNP I-NP I-PER
领导VBZ I-VP O
IN I-PP O
巴格达NNP I-NP I-LOC
。 。 O O
如您所见,单词具有许多属性和类。例如,U.N.
是一个专有名称(NNP
),它位于名词短语(I-NP
)的中间,它的类是#34;进入命名实体,类型组织" (I-ORG
)。因此,要预测标签(最新功能,除了单词本身之外,您还可以使用其他一些功能。将此数据集写为ARFF非常简单。
然而,WEKA不能很好地适应单词分类问题,因为您通常会利用单词的上下文(前一个单词,或单词及其在目标单词周围的窗口中的特征),并且没有简单的过滤器WEKA得到这些窗户。例如,在前面的示例中,您需要以下内容:
联合国,官方,埃克乌斯,NNP,NN,NNP,I-NP,I-NP,I-NP,I-ORG,O,?
对于第二个词,如果是训练。您正在接受官方培训,包括其所有功能,前一个单词的功能以及以下单词中除课堂以外的所有功能(当您从左到右阅读时)。要训练的标签是倒数第二个(O
)。如果你在预测,你有:
联合国,官方,埃克乌斯,NNP,NN,NNP,I-NP,I-NP,I-NP,I-ORG,?,?
但是你必须考虑你需要的功能,你将要使用的上下文,以及程序脚本来获得这种格式并将其提供给WEKA。 AFAIK没有工具可以做到这一点。