我在哪里可以获得词性标注器的训练数据?

时间:2014-08-15 16:12:29

标签: machine-learning nlp part-of-speech

我想实现一个词性标注器,但我不知道在哪里可以获得大量的训练数据? 谢谢!

2 个答案:

答案 0 :(得分:3)

来自CoNLL-2000会议的分块共享任务的训练集和测试集在这里:

http://www.cnts.ua.ac.be/conll2000/chunking/

其他人用它来训练词性标注器:

https://code.google.com/p/miralium/wiki/PosTaggerTutorial

答案 1 :(得分:0)

https://catalog.ldc.upenn.edu/LDC99T42 <---如果您有减价许可证,他们要$ 1700.00或$ 850.00:-(

https://www.kaggle.com/nltkdata/penn-tree-bank <---您必须爱Kaggle!

https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus/version/4 <---您将更加爱Kaggle!