NLTK在荷兰命名实体识别

时间:2012-07-02 11:54:10

标签: python nlp nltk named-entity-recognition

我正在尝试从荷兰文本中提取命名实体。我使用nltk-trainer在conll2002荷兰语语料库上训练一个标记器和一个chunker。但是,来自chunker的解析方法未检测到任何命名实体。这是我的代码:

str = 'Christiane heeft een lam.'

tagger = nltk.data.load('taggers/dutch.pickle')
chunker = nltk.data.load('chunkers/dutch.pickle')

str_tags = tagger.tag(nltk.word_tokenize(str))
print str_tags

str_chunks = chunker.parse(str_tags)
print str_chunks

这个程序的输出:

[('Christiane', u'N'), ('heeft', u'V'), ('een', u'Art'), ('lam', u'Adj'), ('.', u'Punc')]
(S Christiane/N heeft/V een/Art lam/Adj ./Punc)

我期待Christiane被检测为命名实体。 有什么帮助吗?

1 个答案:

答案 0 :(得分:7)

conll2002语料库包含西班牙语和荷兰语文本,因此您应确保使用fileids参数,如python train_chunker.py conll2002 --fileids ned.train中所示。西班牙语和荷兰语的训练效果不佳。

默认算法是基于Tagger的Chunker,在conll2002上效果不佳。相反,使用像NaiveBayes这样的基于分类器的分块,因此完整的命令可能看起来像这样(并且我已经确认结果chunker确实将“Christiane”识别为“PER”):

python train_chunker.py conll2002 --fileids ned.train --classifier NaiveBayes --filename ~/nltk_data/chunkers/conll2002_ned_NaiveBayes.pickle