我正在寻求理解Matthew Honnibal撰写的A simple Python dependency parser并在他的博文Parsing English in 500 Lines of Python中描述,但我不清楚所需输入文件的格式。
main()
函数的参数以及存储模型的目录是三个输入文件:
train_loc
是依赖解析句子的训练集heldout_in
是持有POS标记的句子的测试集heldout_gold
是相同的延期句子依赖解析从阅读源代码看,train_loc
和heldout_gold
处于CONLL格式,但我不确定哪一个。我也不确定POS标记文件heldout_in
的格式是什么。
我已经从NLTK Corpora页面下载了Penn树库数据集“Dependency Parsed Treebank”和“Penn Treebank Sample”,分别用于依赖解析和POS标记的输入,但这些都不被解析器接受为输入,产生元组解包错误。
我很高兴能够理解代码并将我下载的文件转换为解析器可以接受的格式,但是想知道格式是否广为人知,以及格式正确的文件是否已经可用。