我一直在尝试使用CMU's TurboParser生成的依赖关系解析树。它完美无瑕。然而,问题在于文档很少。我需要准确理解解析器的输出。例如,句子" 我解决了统计问题。"生成以下输出:
1 I _ PRP PRP _ 2 SUB
2 solved _ VBD VBD _ 0 ROOT
3 the _ DT DT _ 4 NMOD
4 problem _ NN NN _ 2 OBJ
5 with _ IN IN _ 2 VMOD
6 statistics _ NNS NNS _ 5 PMOD
7 . _ . . _ 2 P
我还没有找到任何可以帮助理解各列所代表的内容的文档,以及如何创建倒数第二列(2,0,4,2,...)中的索引。另外,我不知道为什么有两列专门用于词性标签。任何帮助(或外部文档的链接)都会有很大的帮助。
P.S。如果您想试用他们的解析器here is their online demo。
P.P.S。请不要建议使用斯坦福的依赖解析输出。我对线性编程算法很感兴趣,这不是斯坦福大学的NLP系统所做的。
答案 0 :(得分:6)
以下是每个TurboParser输出列的含义:
0
)您提供的生成输出可以表示为dependency-based parse tree:
有关CoNLL-X格式的更多信息:
答案 1 :(得分:0)
我不知道TurboParser,但我的猜测是第一个数字表示令牌的id,第二个数字表示其调控器的id。 也就是说,就你的例子而言:
solved(
I,
problem(the),
with(statistics),
.
)
实际上,这是CoNLL-X格式。您可以在此处获取更多信息:http://ilk.uvt.nl/conll/#dataformat