Parsey McParseface错误地识别问题的根

时间:2016-08-02 03:34:47

标签: nlp tensorflow pos-tagger dependency-parsing parsey-mcparseface

在我看来,Parsey在正确标记问题方面存在严重问题,任何句子都是""在里面。

文字:来自夏威夷的Barrack Obama?

GCloud令牌(正确):

  • 是 - [root] VERB
  • Barrack - [nn] NOUN
  • 奥巴马 - [nsubj] NOUN
  • from - [adp] PREP
  • 夏威夷 - [pobj] NOUN

Parsey Tokens(错误):

  • 是 - [警察] VERB
  • Barrack - [nsubj] NOUN
  • 奥巴马 - [root] NOUN
  • from - [adp] PREP
  • 夏威夷 - [pobj] NOUN

Parsey决定将名词(!)奥巴马作为根,这会弄乱其他一切。

文字:我的名字是Philipp

GCloud令牌(正确):

  • 我的[可能] PRON
  • name [nsubj] NOUN
  • 是[root] VERB
  • Philipp [attr] NOUN

ParseyTokens(不正确):

  • 我的[可能] PRON
  • name [nsubj] NOUN
  • 是[cop] VERB
  • Philipp [root] NOUN

再次,parsey选择NOUN作为root并与COP斗争。

为什么会发生这种情况以及如何解决这个问题?

谢谢, 菲尔

3 个答案:

答案 0 :(得分:1)

关于第一个例子,看来Parsey的训练数据相当陈旧,并且不包含任何提及甚至单词" Barack"。 如果你用比尔克林顿取代巴拉克奥巴马,你会得到一个正确的解析。

Input: Is Bill Clinton from Hawaii ? Parse: Is VBZ ROOT +-- Clinton NNP nsubj | +-- Bill NNP nn +-- from IN prep | +-- Hawaii NNP pobj +-- ? . punct

第二个例子是根据斯坦福依赖关系正确解析的(参见"关于copula动词的处理"在http://nlp.stanford.edu/software/dependencies_manual.pdf中)。

Input: My name is Philip Parse: Philip NNP ROOT +-- name NN nsubj | +-- My PRP$ poss +-- is VBZ cop

答案 1 :(得分:0)

我必须证明我的答案:我对Parsey McParseface的了解有限。但是,由于没有其他人回答,我希望我能增加一些价值。

我认为大多数机器学习模型的一个主要问题是缺乏可解释性。这与你的第一个问题有关:"为什么会发生这种情况?"这很难说,因为这个工具是建立在一个黑盒子上的'模型,即神经网络。我会说,鉴于strong claims made about Parsey,似乎非常令人惊讶的是,像#39;这样的常用词是'一贯地愚弄它。你有可能犯了一些错误吗?没有代码示例很难分辨。

我认为你没有犯错,在这种情况下,我认为你可以通过利用你的观察来解决这个问题(或者减轻它),这个词是'''' ;似乎抛弃了模型。你可以简单地检查一下这个词的问题'是'并在这种情况下使用GCloud(或其他解析器)。方便的是,一旦你同时使用它们,你可以使用GCloud作为其他Parsey似乎失败的情况的后备,如果你将来发现它们。

至于改进基本模型,如果您足够关心,可以使用original paper重新创建它,并可能根据您的情况优化培训。

答案 2 :(得分:0)

由于它正确地将巴拉克奥巴马标记为2个名词,我不认为它对名称的不熟悉是问题所在。我认为Parsey禁止使用“is”作为根。

在理论依赖语法中,名词永远不是完整句子的根。然而,帕西并不遵循理论;它非常倾向于将内容单词放入头脑中。我认为它决定当你说“X是Y”时,句子的头部应该是“X”而不是“是”,因为“是”不是一个信息性的词。

......除了比尔克林顿的例子,这可能证明我错了!我还没有让Parsey在我自己的电脑上工作,所以我不确定。