我有一个文本作为插入文本,而且只是偶像上的文字。
NLTK
或类似的函数是否可以将输出返回为
I have a text as an input, where there are occassionaly broken words.
?
答案 0 :(得分:2)
你不会在一个函数中获得所有东西,但你可以在Pyenchant库的帮助下检查单词的拼写。您可以执行以下步骤:
是的,我不会说它有效地执行,因为pyEnchant字典包含许多似乎不合法的单词,但它在某些情况下有效。
上面的方法是使用Levenshtein距离,你也可以使用Ngrams进行拼写校正,jaccard系数也是如此。
我已经实现了这个任务,你可以查看我的gitHub链接(https://github.com/rameshjesswani/Semantic-Textual-Similarity/blob/master/nlp_basics/nltk/string_similarity.ipynb)