斯坦福依赖手册(http://nlp.stanford.edu/software/dependencies_manual.pdf)提到:“或者我们的转换工具可以将其他选区解析器的输出转换为斯坦福依赖关系表示。”
有谁知道该工具在哪里或如何使用?
Stanford Parser文档(http://nlp.stanford.edu/software/stanford-dependencies.shtml)提到:“可以使用解析器包中提供的EnglishGrammaticalStructure类,使用我们在短语结构树上的软件来获取依赖关系。”
我有兴趣获取(ccprocessed)类型的依赖项列表以在NLTK中使用。我看到有一个构造函数EnglishGrammaticalStructure(Tree t),我想要一些关于如何为它提供NLTK树的指导。
第一个想法:使用nltk.tree.Tree.pprint生成一个字符串,然后使用Java中的Tree.valueOf解析它。有什么建议吗?
相关问题:
答案 0 :(得分:2)
我不确定你是否看过Stanford Parser的常见问题解答:
您可以使用EnglishGrammaticalStructure的主要方法。你可以给它选择-treeFile这样的选项来读入树,比如说,-collapsed输出typedDependenciesCollapsed。例如,此命令(具有适当的路径)将Penn Treebank文件转换为未折叠的类型依赖项:
java -cp stanford-parser.jar edu.stanford.nlp.trees.EnglishGrammaticalStructure -treeFile wsj/02/wsj_0201.mrg -basic
[...]
这里的mrg
文件是一个'合并'(即POS标签和短语结构)Penn Treebank表示,如果你使用适当的语法定义,你可以得到NLTK的Tree.pprint。但是,我无法对此进行扩展,因为问题描述并没有说明为什么必须对这两个工具进行流水线操作。