我有几个.tree文件,每个文件包含多个树,我尝试以最简单的方式解析这些文件。 我用的时候
for line in txt.readlines():
我在解析时遇到错误,因为有时候line包含两棵树 问题是如何在分开的线条中分离树木? 是否有解决此类问题的优秀解决方案?
答案 0 :(得分:1)
让语料库读者处理细分。如果树是Treebank格式,这可能会自行运行:
from nltk.corpus import BracketParseCorpusReader
reader = BracketParseCorpusReader("path/to/corpus", r".*\.tree")
for sent in reader.parsed_sents():
print(sent)
如果这与您的树格式不匹配,请阅读the documentation以了解自定义输入的选项。