CFG在NLTK中使用POS标签

时间:2013-02-21 13:12:31

标签: python nlp nltk

我正在尝试使用NLTK检查给定句子是否语法

前:

  

好的:鲸鱼舔悲伤

     

不行:我有过的最好的

我知道我可以进行POS标记,然后使用CFG解析器并检查这种方式,但我还没有找到使用POS标记而不是实际单词作为终端分支的CFG。

有没有人可以推荐的CFG?我认为制作自己的是愚蠢的,因为我不是语言学家,可能会遗漏重要的结构。

此外,我的应用程序是这样的,系统理想地拒绝许多句子,只批准它非常肯定的句子。

谢谢:D

1 个答案:

答案 0 :(得分:3)

CFG的终端节点可以是任何东西,甚至是POS标签。只要你的短语规则识别POS而不是单词作为输入,用POS声明语法应该没有问题。

import nltk
# Define the cfg grammar.
grammar = nltk.parse_cfg("""
S -> NP VP
NP -> 'DT' 'NN'
VP -> 'VB'
VP -> 'VB' 'NN'
""")


# Make your POS sentence into a list of tokens.
sentence = "DT NN VB NN".split(" ")

# Load the grammar into the ChartParser.
cp = nltk.ChartParser(grammar)

# Generate and print the nbest_parse from the grammar given the sentence tokens.
for tree in cp.nbest_parse(sentence):
    print tree