Question

我有几个.tree文件，每个文件包含多个树，我尝试以最简单的方式解析这些文件。我用的时候

 for line in txt.readlines():

我在解析时遇到错误，因为有时候line包含两棵树问题是如何在分开的线条中分离树木？是否有解决此类问题的优秀解决方案？

Answer 1

让语料库读者处理细分。如果树是Treebank格式，这可能会自行运行：

from nltk.corpus import BracketParseCorpusReader

reader = BracketParseCorpusReader("path/to/corpus", r".*\.tree")
for sent in reader.parsed_sents():
    print(sent)

如果这与您的树格式不匹配，请阅读the documentation以了解自定义输入的选项。

如何在（python）中解析树库？

1 个答案: