Question

我在python中使用nltk模块，我正在尝试将其用于标记不同语言的POS。

有很多关于如何用不同语言培训自己的POS标签的信息 - 是否有一个真正强大的数据库，用于不同语言的精心构建和测试的NLTK POS标记器？（使用pickle模块导出POS标记很容易）

Answer 1

您可以在这里找到功能强大且精心打造并经过测试的NLTK Corpora http://www.nltk.org/nltk_data/

你可能会找到其他语料库，但这些是最好的

Answer 2

如果仅使用NLTK并不严格，您可以尝试我们强大且与语言无关的POS标记工具包RDRPOSTagger。

（许可证：GPLv2;编程语言：Python和Java）

RDRPOSTagger在学习和标记过程中获得快速性能。此外，与最先进的结果相比，RDRPOSTagger实现了极具竞争力的准确性。

2015年11月18日更新：发布版本1.2，提高了标记准确性，尤其是在形态丰富的语言上。请参阅this paper中的实验结果，包括性能速度和标记准确性。

RDRPOSTagger支持预先培训的POS和形态标记模型，包括保加利亚语，捷克语，荷兰语，英语，法语，德语，印地语，意大利语，葡萄牙语，西班牙语，瑞典语，泰语和越南语。 RDRPOSTagger还支持40种语言的预训练通用POS标记模型。

Answer 3

据我所知，没有这样一个强大的经过良好构建和测试的POS标签的数据库。我确实认为这是一个好主意。

我自己尝试了几个标记。对于我使用的大型英语语料库： http://gmb.let.rug.nl/

对于西班牙语，我使用了NLTK中包含的那个（cess_esp）

from nltk.corpus import cess_esp as cess

为了快速训练简单的标记，您可以查看NLTK Trainer：