我正在尝试使用NLTK检查给定句子是否语法。
前:
好的:鲸鱼舔悲伤
不行:我有过的最好的
我知道我可以进行POS标记,然后使用CFG解析器并检查这种方式,但我还没有找到使用POS标记而不是实际单词作为终端分支的CFG。
有没有人可以推荐的CFG?我认为制作自己的是愚蠢的,因为我不是语言学家,可能会遗漏重要的结构。
此外,我的应用程序是这样的,系统理想地拒绝许多句子,只批准它非常肯定的句子。
谢谢:D
答案 0 :(得分:3)
CFG的终端节点可以是任何东西,甚至是POS标签。只要你的短语规则识别POS而不是单词作为输入,用POS声明语法应该没有问题。
import nltk
# Define the cfg grammar.
grammar = nltk.parse_cfg("""
S -> NP VP
NP -> 'DT' 'NN'
VP -> 'VB'
VP -> 'VB' 'NN'
""")
# Make your POS sentence into a list of tokens.
sentence = "DT NN VB NN".split(" ")
# Load the grammar into the ChartParser.
cp = nltk.ChartParser(grammar)
# Generate and print the nbest_parse from the grammar given the sentence tokens.
for tree in cp.nbest_parse(sentence):
print tree