如何使用NLTK获取python中句子列表的常用标记模式

时间:2015-10-24 13:53:59

标签: python nltk tagging

这里我有一个句子列表。使用NLTK我可以标记句子并获得该句子的标记模式。因此,我可以获得整个列表的标记模式。但我想要的是识别大多数句子匹配的常见标记模式。例如:

  • 什么是封装

    tag pattern : {<WP><VBZ><NN>}
    
  • 你的婚礼怎么样?

    tag pattern : {<WRB><VBD><PRP$><NN>}
    
  • 你今天的计划是什么

    tag pattern : {<WP><VBZ><PRP$><NN><NN>}
    

因此,以上三个句子的常用标记模式(组合正则表达式标记符)为:

{<W.+><V.+><PRP.?>?<NN>+} - One "Wh" word,one verb,zero or one pronoun,one or many nouns

所以我想把句子的标签模式概括为普通的。这就是我想做的事情。

有人能告诉我怎么做吗?

1 个答案:

答案 0 :(得分:2)

听起来你正在使用与数据中所有不同标签序列匹配的正则表达式(带有量词)。虽然这不是一个容易的问题, 我怀疑你的目标是找到一个捕获合法句子序列的模式,这是对的吗?

如果是这样的话,regexps(以及一般的有限状态方法)本身就是错误的工具。为了开始描述你的句子集合,你需要查看无上下文的语法。看一下关于这个主题的NLTK材料。