Question

这里我有一个句子列表。使用NLTK我可以标记句子并获得该句子的标记模式。因此，我可以获得整个列表的标记模式。但我想要的是识别大多数句子匹配的常见标记模式。例如：

你今天的计划是什么

tag pattern : {<WP><VBZ><PRP$><NN><NN>}

因此，以上三个句子的常用标记模式（组合正则表达式标记符）为：

{<W.+><V.+><PRP.?>?<NN>+} - One "Wh" word,one verb,zero or one pronoun,one or many nouns

所以我想把句子的标签模式概括为普通的。这就是我想做的事情。

有人能告诉我怎么做吗？

Answer 1

听起来你正在使用与数据中所有不同标签序列匹配的正则表达式（带有量词）。虽然这不是一个容易的问题，我怀疑你的目标是找到一个捕获合法句子序列的模式，这是对的吗？

如果是这样的话，regexps（以及一般的有限状态方法）本身就是错误的工具。为了开始描述你的句子集合，你需要查看无上下文的语法。看一下关于这个主题的NLTK材料。