哪种解析器最适合[生物医学]关系提取?

时间:2012-06-20 09:25:19

标签: parsing nlp information-extraction

我已阅读有关continuency解析器和依赖解析器的信息。但是混淆了可能是最好的选择。

我的任务是从英语维基百科文本中提取关系(其他来源也可能稍后包含)。我需要的是两个实体之间的语义路径(只有最重要的信息)很有趣。例如,

表格文字: “在美国,每个人都知道,糖尿病是一种常见的疾病。”

我需要这些信息: “糖尿病是疾病”

你会建议解析器的哪个实现?斯坦福? Maltparser?还是其他?

任何线索都表示赞赏。

2 个答案:

答案 0 :(得分:4)

你的意思是语法分析器和依赖分析器? online Stanford Parser向您展示了这些解析的不同之处。

语法分析

(ROOT
  (S
    (PP (IN In)
      (NP (NNP America)))
    (, ,)
    (NP (NNP diabetes))
    (VP (VBZ is) (, ,)
      (PP (IN as)
        (NP (NN everybody) (NNS knows)))
      (, ,)
      (NP (DT a) (JJ common) (NN disease)))))

依赖关系解析(折叠)

prep_in(disease-13, America-2)
nsubj(disease-13, diabetes-4)
cop(disease-13, is-5)
nn(knows-9, everybody-8)
prep_as(disease-13, knows-9)
det(disease-13, a-11)
amod(disease-13, common-12)
root(ROOT-0, disease-13)

它们实际上并没有那么不同(有关详细信息,请参阅柯林斯的论文或Nieve的书),但我发现依赖解析更容易使用。如您所见,您与糖尿病有直接关系 - >疾病。然后你可以附上copula。

答案 1 :(得分:4)

当然,像Stanford依赖解析器这样的依赖解析器对你来说是正确的选择。我建议使用BLLIP reranking parserDavid McClosky's biomedical model来获取短语结构,然后使用Stanford Dependencies转换为依赖项。通过这种方式,您可以获得更好的生物医学文本依赖树/图。