NLTK正则表达式适用于以下标记:
<DT>? <JJ>* <NN>*
有没有办法在正则表达式中包含单词? IE:"<N> <such> <as> <N> <and> <N>"
答案 0 :(得分:2)
我记得<DT>? <JJ>* <NN>*
是一个大块模式。并使用tag_pattern2re_pattern()
函数将块模式内部转换为正则表达式:
>>> from nltk.chunk import tag_pattern2re_pattern
>>> tag_pattern2re_pattern('<DT>?<NN.*>+')
'(<(DT)>)?(<(NN[^\\{\\}<>]*)>)+'
然后你可以将你的单词放在正则表达式模式结果中。