我在python中使用nltk模块,我正在尝试将其用于标记不同语言的POS。
有很多关于如何用不同语言培训自己的POS标签的信息 - 是否有一个真正强大的数据库,用于不同语言的精心构建和测试的NLTK POS标记器? (使用pickle模块导出POS标记很容易)
答案 0 :(得分:5)
您可以在这里找到功能强大且精心打造并经过测试的NLTK Corpora http://www.nltk.org/nltk_data/
你可能会找到其他语料库,但这些是最好的
答案 1 :(得分:5)
如果仅使用NLTK并不严格,您可以尝试我们强大且与语言无关的POS标记工具包RDRPOSTagger。
(许可证:GPLv2;编程语言:Python和Java)
RDRPOSTagger在学习和标记过程中获得快速性能。此外,与最先进的结果相比,RDRPOSTagger实现了极具竞争力的准确性。
2015年11月18日更新:发布版本1.2,提高了标记准确性,尤其是在形态丰富的语言上。请参阅this paper中的实验结果,包括性能速度和标记准确性。
RDRPOSTagger支持预先培训的POS和形态标记模型,包括保加利亚语,捷克语,荷兰语,英语,法语,德语,印地语,意大利语,葡萄牙语,西班牙语,瑞典语,泰语和越南语。 RDRPOSTagger还支持40种语言的预训练通用POS标记模型。
答案 2 :(得分:2)
据我所知,没有这样一个强大的经过良好构建和测试的POS标签的数据库。我确实认为这是一个好主意。
我自己尝试了几个标记。对于我使用的大型英语语料库: http://gmb.let.rug.nl/
对于西班牙语,我使用了NLTK中包含的那个(cess_esp)
from nltk.corpus import cess_esp as cess
为了快速训练简单的标记,您可以查看NLTK Trainer:
https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html