我有大量来自19世纪的英语OCR文档,并希望通过使用上下文拼写检查来清理一些OCR错误,例如Peter Norvig在http://norvig.com/spell-correct.html提出的拼写检查。我的主要目标是能够使用概率模型(连同ocred文本数据和适当的大词典)来纠正错误拼写的单词。
我很高兴使用Norvig在他的网站上提供的代码并对其进行改进,但在此之前,我想问一下是否有一个开源解决方案。 Norivg本人建议看看aspell,但我不认为aspell是一个上下文拼写检查器,我担心它可能在OCR纠错方面效果不好。
答案 0 :(得分:0)
不是开源但您可能想查看AfterScan。它提供OCR特定错误的批量和可视编辑。
答案 1 :(得分:0)
因此,您正在寻找一种拼写检查器,该检查器将在出现不理解的短语或单词时替换掉概率最高的选择?除非您有大量的此类文本已经被手工拼写检查,否则在19c文本上似乎是个坏主意。在您不知情的情况下,曾经很普通但现在很少见的单词将被替换。我敢说,您可能会找到受过现代语言训练的上下文拼写检查器,并通过您的19c措词被 to灭了。 ☺
如果您有这样的语料库,或者准备创建一个语料库,那么有一个功能强大的基于Python的OCR和分析工具,称为OCRopus。它使用自然语言处理,神经网络和许多其他流行词-我想我在待办事项清单上看到了“深度学习”。它似乎并不易于使用,尽管我承认我自己从未尝试过。它似乎需要在命令行和Python编程方面的技能。如果您仍然不畏惧,那可能正是您想要的。
另一方面,如果您正在寻找更简单的方法,请考虑使用带有标准拼写检查器的程序。例如,gImageReader可以读取您的PDF文件,对其进行OCR,然后让您更正并添加它不知道的单词。我建议至少在搜索更复杂的内容之前先尝试使用简单的拼写检查器。