应用错误收集

我从LDC获得了LDC99T42-EnglishTreebank语料库。现在我正在尝试加载它并使用NLTK获得句子...

我使用BracketParseCorpusReader加载.mrg文件，然后调用＆＃39; sents（）＆＃39;获得句子的功能。但是句子中有些奇怪的东西（看起来像标签，例如* T * -1和* U *）。

例如:(来自09 / wsj_0925.mrg）

[u'Computer', u'Sciences', u'Corp.', u'said', u'0', u'it', u'received', u'a', u'U.S.', u'Postal', u'Service', u'contract', u'that', u'\*T*-1', u'will', u'have', u'a', u'value', u'of', u'at', u'least', u'$', u'33', u'million', u'\*U*', u'.']

你能告诉我为什么会这样吗？以及如何正确加载语料库？

#UPDATE

我发现所有这些代币都来自＆＃34; - None - ＆＃34;解析文件中的节点。我应该删除所有这些节点吗？或者有什么方法可以忽略它们吗？

Penn Treebank中的奇怪标记3.0句

0 个答案: