带有单词建议Python的语法/拼写检查

时间:2018-11-07 20:44:56

标签: python nlp nltk autocorrect

我正在从事一个自然语言分析规范的NLP项目。 我正在使用NLTK工具包并自动更正用于标记,POS标记和检查拼写错误。但是我最近遇到了一个问题。 因此,示例为“然后离开”。而用户实际上的意思是“然后向左转”。

NLTK工具箱中的POS标记器将“燕尾”识别为形容词。但是由于句子本身在语法上是不正确的,并且NLTK解析器仍然限于更正的句子,因此我不会对此进行指责。并且由于“ tern”是正确的英语单词,因此自动更正功能也不会捕获该错误。 当我使用语法工具(如Grammarly)来测试句子时,它给了我这样的建议:“燕鸥”一词似乎不适合这种情况,建议我用“转”代替它。

如何解决此问题? 例如,报告错误并在句子“然后就离开”上给出建议。 ->“然后它向左转。”

我现在的想法是先检查语法。例如,也许要说“ it”和“ left”之间的单词应该是动词。然后根据我们需要动词的事实给出建议。 NLTK解析器并没有真正分辨出是哪个单词引起了问题。我还尝试了语法检查和语言检查(它们是相同的)。对于我的目的来说太慢了。

关于如何解决此问题的任何建议?

1 个答案:

答案 0 :(得分:0)

您在这里描述的是一个难题,但是可以通过检查单词 concordance 来解决,或者换句话说,通过检查在其他环境中使用该单词的上下文来解决。 。然后,可以根据上下文进行有根据的猜测,前提是该单词的用法在主题句子中的何处有意义。这是一个示例,来自nltk docs,使用Moby Dick作为搜索空间。

>>> text1.concordance("monstrous")
Displaying 11 of 11 matches:
ong the former , one was of a most monstrous size . ... This came towards us ,
ON OF THE PSALMS . " Touching that monstrous bulk of the whale or ork we have r
ll over with a heathenish array of monstrous clubs and spears . Some were thick
d as you gazed , and wondered what monstrous cannibal and savage could ever hav
that has survived the flood ; most monstrous and most mountainous ! That Himmal
they might scout at Moby Dick as a monstrous fable , or still worse and more de
th of Radney .'" CHAPTER 55 Of the monstrous Pictures of Whales . I shall ere l
ing Scenes . In connexion with the monstrous pictures of whales , I am strongly
ere to enter upon those still more monstrous stories of them which are to be fo
ght have been rummaged out of this monstrous cabinet there is no telling . But
of Whale - Bones ; for Whales of a monstrous size are oftentimes cast up dead u
>>>

此外,如果您尚未使用斯坦福POS标记器而不是默认的NTLK标记器,则它可以产生更好的结果,但会降低性能。