TurboParser的依赖解析输出是什么意思?

时间:2014-06-24 18:54:22

标签: nlp parse-tree

我一直在尝试使用CMU's TurboParser生成的依赖关系解析树。它完美无瑕。然而,问题在于文档很少。我需要准确理解解析器的输出。例如,句子" 我解决了统计问题。"生成以下输出:

1   I           _   PRP PRP _   2   SUB
2   solved      _   VBD VBD _   0   ROOT
3   the         _   DT  DT  _   4   NMOD
4   problem     _   NN  NN  _   2   OBJ
5   with        _   IN  IN  _   2   VMOD
6   statistics  _   NNS NNS _   5   PMOD
7   .           _   .   .   _   2   P

我还没有找到任何可以帮助理解各列所代表的内容的文档,以及如何创建倒数第二列(2,0,4,2,...)中的索引。另外,我不知道为什么有两列专门用于词性标签。任何帮助(或外部文档的链接)都会有很大的帮助。

P.S。如果您想试用他们的解析器here is their online demo

P.P.S。请不要建议使用斯坦福的依赖解析输出。我对线性编程算法很感兴趣,这不是斯坦福大学的NLP系统所做的。

2 个答案:

答案 0 :(得分:6)

以下是每个TurboParser输出列的含义:

  1. 令牌的ID,即句子
  2. 中的从一开始的索引
  3. 原始令牌,与原始文本一样
  4. 引理,令牌的lemmatized形式(在这里为空,因为没有设置变形器)
  5. 标记(粗粒度词性标记)
  6. 标记(细粒度词性标记,与 4。与TurboParser相同)
  7. 形态特征(此处为空)
  8. 令牌的头部,由其索引表示(根令牌的头部值为0
  9. 当前令牌及其头部的
  10. 关系

  11. 您提供的生成输出可以表示为dependency-based parse tree

    representation of the dependency-based parse tree

    有关CoNLL-X格式的更多信息:

答案 1 :(得分:0)

我不知道TurboParser,但我的猜测是第一个数字表示令牌的id,第二个数字表示其调控器的id。 也就是说,就你的例子而言:

solved(
 I,
 problem(the),
 with(statistics),
 .
)

实际上,这是CoNLL-X格式。您可以在此处获取更多信息:http://ilk.uvt.nl/conll/#dataformat