我有来自nltk的WSJ树库语料库。我想用棕色语料库的标签集加载它。有可能吗?
import nltk
wsj = nltk.corpus.treebank.tagged_sents(tagset ='universal') # universal tags
wsj2 = nltk.corpus.treebank.tagged_sents() # treebank specific tags
答案 0 :(得分:0)
根据thread中的讨论,这是不可能的。
到目前为止,NLTK仅提供将特定标记集映射到通用标记集的可能性。 也许讨论中建议的解决方案之一可以提供帮助:
这显然在NLTK中尚不支持,但请参阅Dan Zeman的Interset工具或我的脚本https://gist.github.com/nschneid/6476715