我从LDC获得了LDC99T42-EnglishTreebank语料库。现在我正在尝试加载它并使用NLTK获得句子...
我使用BracketParseCorpusReader加载.mrg文件,然后调用' sents()'获得句子的功能。但是句子中有些奇怪的东西(看起来像标签,例如* T * -1和* U *)。
例如:(来自09 / wsj_0925.mrg)
[u'Computer', u'Sciences', u'Corp.', u'said', u'0', u'it', u'received', u'a', u'U.S.', u'Postal', u'Service', u'contract', u'that', u'\*T*-1', u'will', u'have', u'a', u'value', u'of', u'at', u'least', u'$', u'33', u'million', u'\*U*', u'.']
你能告诉我为什么会这样吗?以及如何正确加载语料库?
#UPDATE我发现所有这些代币都来自" - None - "解析文件中的节点。我应该删除所有这些节点吗?或者有什么方法可以忽略它们吗?