Python的拼写检查器

时间:2012-12-18 07:18:31

标签: python-2.7 nltk spell-checking pyenchant

我是Python和NLTK的新手。我正在忙于一个可以执行拼写检查的应用程序(用正确拼写的单词替换拼写错误的单词), 我目前在Python-2.7,PyEnchant和NLTK库上使用附魔库。下面的代码是处理更正/替换的类。

from nltk.metrics import edit_distance

class SpellingReplacer(object):
    def __init__(self, dict_name = 'en_GB', max_dist = 2):
        self.spell_dict = enchant.Dict(dict_name)
        self.max_dist = 2

    def replace(self, word):
        if self.spell_dict.check(word):
            return word
        suggestions = self.spell_dict.suggest(word)

        if suggestions and edit_distance(word, suggestions[0]) <= self.max_dist:
            return suggestions[0]
        else:
            return word

我编写了一个函数,它接受单词列表并对每个单词执行def替换并返回单词列表但拼写正确。

def spell_check(word_list):
    checked_list = []
    for item in word_list:
        replacer = SpellingReplacer()
        r = replacer.replace(item)
        checked_list.append(r)
    return checked_list

>>> word_list = ['car', 'colour']
>>> spell_check(words)
['car', 'color']

现在我不喜欢这个,因为它不是很准确,我正在寻找一种方法来实现拼写检查和单词替换。我还需要一些可以解决像“caaaar”这样的拼写错误的东西吗?有没有更好的方法来执行拼写检查?如果是这样,他们是什么?谷歌如何做到这一点,因为他们的拼写建议非常好? 任何建议

10 个答案:

答案 0 :(得分:26)

我建议您先仔细阅读this post by Peter Norvig。 (我不得不做类似的事情,我发现它非常有用。)

以下功能,特别是您现在需要使您的拼写检查更复杂的想法:拆分,删除,移调和插入不正确的单词以“纠正”它们。

def edits1(word):
   splits     = [(word[:i], word[i:]) for i in range(len(word) + 1)]
   deletes    = [a + b[1:] for a, b in splits if b]
   transposes = [a + b[1] + b[0] + b[2:] for a, b in splits if len(b)>1]
   replaces   = [a + c + b[1:] for a, b in splits for c in alphabet if b]
   inserts    = [a + c + b     for a, b in splits for c in alphabet]
   return set(deletes + transposes + replaces + inserts)

注意:以上是Norvig拼写纠正器的一个片段

好消息是你可以逐步添加并不断改进你的拼写检查。

希望有所帮助。

答案 1 :(得分:23)

您可以使用 autocorrect lib拼写检查python 示例用法:

from autocorrect import spell

print spell('caaaar')
print spell(u'mussage')
print spell(u'survice')
print spell(u'hte')

<强>结果:

caesar
message
service
the

答案 2 :(得分:2)

终端

pip install gingerit

代码

from gingerit.gingerit import GingerIt
text = input("Enter text to be corrected")
result = GingerIt().parse(text)
corrections = result['corrections']
correctText = result['result']

print("Correct Text:",correctText)
print()
print("CORRECTIONS")
for d in corrections:
  print("________________")  
  print("Previous:",d['text'])  
  print("Correction:",d['correct'])   
  print("`Definiton`:",d['definition'])
 

答案 3 :(得分:1)

拼写纠正器 - &gt;

如果您在其他地方存储,则需要将语料库导入桌面更改代码中的路径我已添加了一些图形以及使用tkinter,这只是为了解决非单词错误!

def min_edit_dist(word1,word2):
    len_1=len(word1)
    len_2=len(word2)
    x = [[0]*(len_2+1) for _ in range(len_1+1)]#the matrix whose last element ->edit distance
    for i in range(0,len_1+1):  
        #initialization of base case values
        x[i][0]=i
        for j in range(0,len_2+1):
            x[0][j]=j
    for i in range (1,len_1+1):
        for j in range(1,len_2+1):
            if word1[i-1]==word2[j-1]:
                x[i][j] = x[i-1][j-1]
            else :
                x[i][j]= min(x[i][j-1],x[i-1][j],x[i-1][j-1])+1
    return x[i][j]
from Tkinter import *


def retrieve_text():
    global word1
    word1=(app_entry.get())
    path="C:\Documents and Settings\Owner\Desktop\Dictionary.txt"
    ffile=open(path,'r')
    lines=ffile.readlines()
    distance_list=[]
    print "Suggestions coming right up count till 10"
    for i in range(0,58109):
        dist=min_edit_dist(word1,lines[i])
        distance_list.append(dist)
    for j in range(0,58109):
        if distance_list[j]<=2:
            print lines[j]
            print" "   
    ffile.close()
if __name__ == "__main__":
    app_win = Tk()
    app_win.title("spell")
    app_label = Label(app_win, text="Enter the incorrect word")
    app_label.pack()
    app_entry = Entry(app_win)
    app_entry.pack()
    app_button = Button(app_win, text="Get Suggestions", command=retrieve_text)
    app_button.pack()
    # Initialize GUI loop
    app_win.mainloop()

答案 4 :(得分:1)

在python中进行拼写检查的最佳方法是:SymSpell,Bk-Tree或Peter Novig的方法。

最快的是SymSpell。

这是方法1 :参考链接pyspellchecker

该库基于Peter Norvig的实现。

pip安装pyspellchecker

from spellchecker import SpellChecker

spell = SpellChecker()

# find those words that may be misspelled
misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])

for word in misspelled:
    # Get the one `most likely` answer
    print(spell.correction(word))

    # Get a list of `likely` options
    print(spell.candidates(word))

方法2: SymSpell Python

点安装-U symspellpy

答案 5 :(得分:1)

尝试jamspell-在自动拼写更正方面非常有效:

import jamspell

corrector = jamspell.TSpellCorrector()
corrector.LoadLangModel('en.bin')

corrector.FixFragment('Some sentnec with error')
# u'Some sentence with error'

corrector.GetCandidates(['Some', 'sentnec', 'with', 'error'], 1)
# ('sentence', 'senate', 'scented', 'sentinel')

答案 6 :(得分:1)

pyspellchecker是针对此问题的最佳解决方案之一。 pyspellchecker库基于Peter Norvig’s博客文章。 它使用Levenshtein Distance算法来查找距原始单词2个编辑距离内的排列。 有两种安装该库的方法。官方文档强烈建议使用pipev软件包。

  • 使用pip
  • 安装
pip install pyspellchecker
  • 从源代码安装
git clone https://github.com/barrust/pyspellchecker.git
cd pyspellchecker
python setup.py install

以下代码是文档中提供的示例

from spellchecker import SpellChecker

spell = SpellChecker()

# find those words that may be misspelled
misspelled = spell.unknown(['something', 'is', 'hapenning', 'here'])

for word in misspelled:
    # Get the one `most likely` answer
    print(spell.correction(word))

    # Get a list of `likely` options
    print(spell.candidates(word))

答案 7 :(得分:0)

来自自动更正导入拼写 为此,您需要安装,最好使用anaconda,它仅适用于单词,而不适用于句子,因此这是您要面对的限制。

来自自动更正导入拼写 打印(spell('intrerpreter')) 输出:解释器

答案 8 :(得分:0)

也许为时已晚,但我正在回答将来的搜索。 要执行拼写错误更正,您首先需要确保该单词不荒谬,或者不带有重复字母的ca语,caaaar,amazzzing等。因此,我们首先需要摆脱这些字母。如我们所知,英语单词通常最多包含2个重复的字母,例如,您好。因此,我们先从单词中删除多余的重复词,然后再检查它们的拼写。 要删除多余的字母,可以在Python中使用正则表达式模块。

完成此操作后,请使用Python中的Pyspellchecker库纠正拼写。

要实施,请访问以下链接:https://rustyonrampage.github.io/text-mining/2017/11/28/spelling-correction-with-python-and-nltk.html

答案 9 :(得分:0)

Spark NLP是我使用的另一个选项,它的运行效果非常好。在这里可以找到一个简单的教程。 https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/jupyter/annotation/english/spell-check-ml-pipeline/Pretrained-SpellCheckML-Pipeline.ipynb