我有以下句子:
She usually walks three miles a day
。这里有几个语法元素,如present simple
,personal pronouns
,numerals
等。是否有可以检测这些语法的软件?
答案 0 :(得分:2)
您想要找到英语parser。解析有许多不同的技术和工具。 NLTK包括广泛的解析功能(here)。如果您想要简单且现成的东西,可以使用Stanford Parser,它也可以作为Java程序使用。您的示例句子解析如下:
She/PRP usually/RB walks/VBZ three/CD miles/NNS a/DT day/NN
(ROOT
(S
(NP (PRP She))
(VP
(ADVP (RB usually))
(VBZ walks)
(NP
(NP (CD three) (NNS miles))
(NP (DT a) (NN day))))))
Universal dependencies
nsubj(walks-3, She-1)
advmod(walks-3, usually-2)
root(ROOT-0, walks-3)
nummod(miles-5, three-4)
dobj(walks-3, miles-5)
det(day-7, a-6)
dep(miles-5, day-7)
Universal dependencies, enhanced
nsubj(walks-3, She-1)
advmod(walks-3, usually-2)
root(ROOT-0, walks-3)
nummod(miles-5, three-4)
dobj(walks-3, miles-5)
det(day-7, a-6)
dep(miles-5, day-7)
这可能看起来很神秘,但实际上它确实包含了您正在寻找的所有信息。例如,在walks/VBZ
中,VBZ
表示Verb, 3rd person singular present
。 PRP
表示Personal Pronoun
或CD
表示Cardinal Number
。这些是Penn Treebank中使用的缩写。您可以找到大部分here。
最后一部分涉及依赖关系。例如advmod(walks-3, usually-2)
表示副词usually
引用动词walks
等。