在OCR编辑的文档中检测乱码文本的最佳方法是什么

时间:2011-06-17 05:48:02

标签: text statistics nlp ocr

是否有任何良好的NLP或统计技术可用于检测OCR文本中的乱码?在我的脑海中,我认为在文本中查看n-gram的分布可能是一个很好的起点,但我对整个NLP域都很陌生。

以下是我到目前为止所看到的内容:

该文本主要是英文,但一般解决方案会很好。该文本目前在Lucene中编入索引,因此任何关于基于术语的方法的想法也都会有用。


任何建议都会很棒!谢谢!

2 个答案:

答案 0 :(得分:4)

是的,在这种情况下最有力的是Ngrams。您应该在相关的文本语料库中收集它们(与您的OCR文本具有相同的主题)。这个问题与拼写检查非常相似 - 如果小字符变化导致概率增加很大则是一个错误。检查this tutorial如何使用ngram进行拼写检查。

答案 1 :(得分:1)

几年前我使用了n-gram,结果相当不错。我使用了Apache Nutch的语言检测器,它在内部使用word和intraword n-gram。然后将文本的“ngram-profile”与训练材料的n-gram配置文件进行比较。除了语言之外,Nutch还给出了得分/置信度值,我使用了基于语言(应该是文档所在的语言)和分数的硬截止值。保留了大部分带标签的文本,但它的计算成本有点高。