如何在python中检查单词/部分句子的字符串以获取正确的语法

时间:2018-12-19 15:08:32

标签: python nltk

有没有一种方法可以简单地检查“句子的一部分” /句子片段python字符串在python中的语法正确性?我甚至认为完整句子的语法正确性可能很棘手,但也假设部分句子的语法正确性可能更难。我想我只是想知道字符串内部是否存在明显的语法错误(词性不同,单数与复数,无意义等),好像在真空中一样?

换一种说法,我如何识别“句子的一部分”中是否有语法违规?

autogenerated_strings = ["according to a justice department source", # grammar makes sense
                        "according to court documents", # grammar makes sense
                        "to be released Monday evening", # grammar makes sense
                        "according to a justice department sources", # grammar doesn't make sense
                        "according to a multiple court document", # grammar doesn't make sense
                        "to be released evening" # grammar doesn't make sense
                        ] 

我有一些代码,用于整理新闻工作者通常拼在一起用来识别供稿中某些新闻报道的单词。我最终得到了由这些单词组成的一长串字符串(如代码示例中的字符串)。基本上,我想扔掉那些没有任何意义的“自动生成”字符串。我认为可能有一个函数可以接受这些字符串之一,并返回某种语法敏感性等级。

我在寻找解决方案时发现了一些对nltk和grammar-check的引用,但是我不确定是是否广泛使用了grammar-check /是否值得使用/如何在nltk中做到这一点(看来确实被广泛使用)。

1 个答案:

答案 0 :(得分:1)

我确定您已经看到其他一些有关此问题的答案。最重要的是,这不是一个小问题,通过NLTK book工作将是一个不错的起点。如果您想要一些粗糙但开箱即用的内容,请查看建议here