我有一个例子,斯坦福NLP为句子输出一个奇怪的解析树:
Clean my desk
(ROOT
(NP
(NP (JJ Clean))
(NP (PRP$ my) (NN desk))))
正如您所看到的,它将单词Clean
标记为取决于动词desk
的形容词,整个短语被标记为Noun Phrase
,而我的期望是Clean
1}}被标记为动词,相位被标记为Verb Phrase
。
JJ-PRP $ -NN组合对我来说对英语没有意义。有没有人碰到类似的东西?我知道斯坦福NLP结果有时会因解析工具运行的顺序(?)而不同。如何正确制作这个标签?
答案 0 :(得分:0)
碰巧,如果您将句子"Clean my desk"
直接提供给解析器(实际上,' tokenize',' ssplit'和'解析&#39 ;工具),它给出了以下结果:
(ROOT (NP (NP (NNP Clean)) (NP (PRP$ my) (NN desk))))
然而,现在"Clean"
是一个正确的名词 - 非常聪明,斯坦福。所以,如果我们用小写的第一个单词 - "clean my desk"
来输入句子 - 我们终于得到了我们想要的东西:
(ROOT (S (VP (VB clean) (NP (PRP$ my) (NN desk)))))
小心不要将完整的句子转换为小写。在测试时我发现"I"
这个词变为小写"i"
被标记为FW(外来词),因此只将第一个词转换为小写。