这里我有一个句子列表。使用NLTK我可以标记句子并获得该句子的标记模式。因此,我可以获得整个列表的标记模式。但我想要的是识别大多数句子匹配的常见标记模式。例如:
什么是封装
tag pattern : {<WP><VBZ><NN>}
你的婚礼怎么样?
tag pattern : {<WRB><VBD><PRP$><NN>}
你今天的计划是什么
tag pattern : {<WP><VBZ><PRP$><NN><NN>}
因此,以上三个句子的常用标记模式(组合正则表达式标记符)为:
{<W.+><V.+><PRP.?>?<NN>+} - One "Wh" word,one verb,zero or one pronoun,one or many nouns
所以我想把句子的标签模式概括为普通的。这就是我想做的事情。
有人能告诉我怎么做吗?
答案 0 :(得分:2)
听起来你正在使用与数据中所有不同标签序列匹配的正则表达式(带有量词)。虽然这不是一个容易的问题, 我怀疑你的目标是找到一个捕获合法句子序列的模式,这是对的吗?
如果是这样的话,regexps(以及一般的有限状态方法)本身就是错误的工具。为了开始描述你的句子集合,你需要查看无上下文的语法。看一下关于这个主题的NLTK材料。