在我看来,Parsey在正确标记问题方面存在严重问题,任何句子都是""在里面。
文字:来自夏威夷的Barrack Obama?
GCloud令牌(正确):
Parsey Tokens(错误):
Parsey决定将名词(!)奥巴马作为根,这会弄乱其他一切。
文字:我的名字是Philipp
GCloud令牌(正确):
ParseyTokens(不正确):
再次,parsey选择NOUN作为root并与COP斗争。
为什么会发生这种情况以及如何解决这个问题?
谢谢, 菲尔
答案 0 :(得分:1)
关于第一个例子,看来Parsey的训练数据相当陈旧,并且不包含任何提及甚至单词" Barack"。 如果你用比尔克林顿取代巴拉克奥巴马,你会得到一个正确的解析。
Input: Is Bill Clinton from Hawaii ?
Parse:
Is VBZ ROOT
+-- Clinton NNP nsubj
| +-- Bill NNP nn
+-- from IN prep
| +-- Hawaii NNP pobj
+-- ? . punct
第二个例子是根据斯坦福依赖关系正确解析的(参见"关于copula动词的处理"在http://nlp.stanford.edu/software/dependencies_manual.pdf中)。
Input: My name is Philip
Parse:
Philip NNP ROOT
+-- name NN nsubj
| +-- My PRP$ poss
+-- is VBZ cop
答案 1 :(得分:0)
我必须证明我的答案:我对Parsey McParseface的了解有限。但是,由于没有其他人回答,我希望我能增加一些价值。
我认为大多数机器学习模型的一个主要问题是缺乏可解释性。这与你的第一个问题有关:"为什么会发生这种情况?"这很难说,因为这个工具是建立在一个黑盒子上的'模型,即神经网络。我会说,鉴于strong claims made about Parsey,似乎非常令人惊讶的是,像#39;这样的常用词是'一贯地愚弄它。你有可能犯了一些错误吗?没有代码示例很难分辨。
我认为你没有犯错,在这种情况下,我认为你可以通过利用你的观察来解决这个问题(或者减轻它),这个词是'''' ;似乎抛弃了模型。你可以简单地检查一下这个词的问题'是'并在这种情况下使用GCloud(或其他解析器)。方便的是,一旦你同时使用它们,你可以使用GCloud作为其他Parsey似乎失败的情况的后备,如果你将来发现它们。
至于改进基本模型,如果您足够关心,可以使用original paper重新创建它,并可能根据您的情况优化培训。
答案 2 :(得分:0)
由于它正确地将巴拉克奥巴马标记为2个名词,我不认为它对名称的不熟悉是问题所在。我认为Parsey禁止使用“is”作为根。
在理论依赖语法中,名词永远不是完整句子的根。然而,帕西并不遵循理论;它非常倾向于将内容单词放入头脑中。我认为它决定当你说“X是Y”时,句子的头部应该是“X”而不是“是”,因为“是”不是一个信息性的词。
......除了比尔克林顿的例子,这可能证明我错了!我还没有让Parsey在我自己的电脑上工作,所以我不确定。