Pos使用NLTK标记德语文本

时间:2013-12-02 16:15:49

标签: python nltk pos-tagger

我想用NLTK来标记德语文本。我在网上找到了一些参考文献,但大多数已经过时了。有些参考例如“EUROPARL”词库,但看起来只有“EUROPARL_raw”仍然可用。那个不是POS标签。我还发现了一些使用TIGER语料库的参考文献,但最新版本似乎是我的格式,我无法解决开箱即用的NLTK。

我知道一些非NTLT替代品,但我更喜欢使用NLTK。有人能提供一个基于德语语料库的POS标签的简单例子吗?

3 个答案:

答案 0 :(得分:2)

我无法找到与NLTK一起使用的标记语料库。如果您需要预先标记的语料库,您可能会对NLTK不满意。这个问题有一个公开发行票,但没有进展(Reading Negra Corpus Files

您可以使用NLTK TrainerNegra Corpus标记自己的语料库。它需要德语语法知识但不需要编码。请参见NLTK-Trainer的演示。

答案 1 :(得分:2)

使用TIGER语料库训练标记符是一种很好的方法。它现在也是available in CONLL09 format,可以加载NLTK。我将它与Philipp Nolte的ClassifierBasedGermanTagger结合使用,准确度达到了96%。我在POS tagging of German texts with NLTK上写了一篇博文,解释了如何让它运行。

答案 2 :(得分:0)

您可以使用TIGER语料库。它可以在http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html下免费用于研究和评估。要导入它,请使用ConllCorpusReader:

root = '/Users/scott/nltk/tiger'
fileid = 'tiger.16012013.conll09'
columntypes = ['ignore', 'words', 'ignore', 'ignore', 'pos']
corp = nltk.corpus.ConllCorpusReader(root, fileid, columntypes, encoding='utf8')

然后使用此标记语料库来训练http://www.nltk.org/book/ch06.html中描述的ConsecutivePosTagger。但我只有77%的准确率。为了获得更好的结果,您可能会想到其他序列分类方法中描述的其他方法。