我正在尝试使用POS标签和正则表达式提取主题(它就在动词之前),但它失败了。 这是我的功能:
def get_SOP(sent):
tokens = nltk.word_tokenize(sent)
tags = nltk.pos_tag(tokens)
grammar = r"""
Sub: {(<DT>?<JJ>*<NN>*)(?=(<VB.*>?<VB.*>?))}
Pre: {<VB.*>?<VB.*>?}
"""
cp = nltk.RegexpParser(grammar)
return cp.parse(tags)
句子:女孩正坐在阳台上。
Sub得到一棵树:女孩Pred:坐着,另一个Sub:在阳台上不正确所以前瞻不适合我。
我使用的是Python 3.4。和nltk 3.2.1。