如何在(python)中解析树库?

时间:2017-04-15 14:16:56

标签: parsing nltk

我有几个.tree文件,每个文件包含多个树,我尝试以最简单的方式解析这些文件。 我用的时候

 for line in txt.readlines():

我在解析时遇到错误,因为有时候line包含两棵树 问题是如何在分开的线条中分离树木? 是否有解决此类问题的优秀解决方案?

1 个答案:

答案 0 :(得分:1)

让语料库读者处理细分。如果树是Treebank格式,这可能会自行运行:

from nltk.corpus import BracketParseCorpusReader

reader = BracketParseCorpusReader("path/to/corpus", r".*\.tree")
for sent in reader.parsed_sents():
    print(sent)

如果这与您的树格式不匹配,请阅读the documentation以了解自定义输入的选项。