使用brown的标记集

时间:2015-07-22 16:41:30

标签: python-2.7 nlp nltk corpus tagged-corpus

我有来自nltk的WSJ树库语料库。我想用棕色语料库的标签集加载它。有可能吗?

import nltk
wsj = nltk.corpus.treebank.tagged_sents(tagset ='universal') # universal tags
wsj2 = nltk.corpus.treebank.tagged_sents() # treebank specific tags

1 个答案:

答案 0 :(得分:0)

根据thread中的讨论,这是不可能的。

到目前为止,NLTK仅提供将特定标记集映射到通用标记集的可能性。 也许讨论中建议的解决方案之一可以提供帮助:

  

这显然在NLTK中尚不支持,但请参阅Dan Zeman的Interset工具或我的脚本https://gist.github.com/nschneid/6476715