应用错误收集

OCR最好的开源拼写检查程序？

时间：2017-02-19 23:27:50

标签： ocr spell-checking aspell

我有大量来自19世纪的英语OCR文档，并希望通过使用上下文拼写检查来清理一些OCR错误，例如Peter Norvig在http://norvig.com/spell-correct.html提出的拼写检查。我的主要目标是能够使用概率模型（连同ocred文本数据和适当的大词典）来纠正错误拼写的单词。

我很高兴使用Norvig在他的网站上提供的代码并对其进行改进，但在此之前，我想问一下是否有一个开源解决方案。 Norivg本人建议看看aspell，但我不认为aspell是一个上下文拼写检查器，我担心它可能在OCR纠错方面效果不好。

2 个答案:

答案 0 :(得分：0)

不是开源但您可能想查看AfterScan。它提供OCR特定错误的批量和可视编辑。

答案 1 :(得分：0)

因此，您正在寻找一种拼写检查器，该检查器将在出现不理解的短语或单词时替换掉概率最高的选择？除非您有大量的此类文本已经被手工拼写检查，否则在19c文本上似乎是个坏主意。在您不知情的情况下，曾经很普通但现在很少见的单词将被替换。我敢说，您可能会找到受过现代语言训练的上下文拼写检查器，并通过您的19c措词被 to灭了。 ☺

如果您有这样的语料库，或者准备创建一个语料库，那么有一个功能强大的基于Python的OCR和分析工具，称为OCRopus。它使用自然语言处理，神经网络和许多其他流行词-我想我在待办事项清单上看到了“深度学习”。它似乎并不易于使用，尽管我承认我自己从未尝试过。它似乎需要在命令行和Python编程方面的技能。如果您仍然不畏惧，那可能正是您想要的。

另一方面，如果您正在寻找更简单的方法，请考虑使用带有标准拼写检查器的程序。例如，gImageReader可以读取您的PDF文件，对其进行OCR，然后让您更正并添加它不知道的单词。我建议至少在搜索更复杂的内容之前先尝试使用简单的拼写检查器。