应用错误收集

在OCR编辑的文档中检测乱码文本的最佳方法是什么

时间：2011-06-17 05:48:02

标签： text statistics nlp ocr

是否有任何良好的NLP或统计技术可用于检测OCR文本中的乱码？在我的脑海中，我认为在文本中查看n-gram的分布可能是一个很好的起点，但我对整个NLP域都很陌生。

以下是我到目前为止所看到的内容：

该文本主要是英文，但一般解决方案会很好。该文本目前在Lucene中编入索引，因此任何关于基于术语的方法的想法也都会有用。

任何建议都会很棒！谢谢！

2 个答案:

答案 0 :(得分：4)

是的，在这种情况下最有力的是Ngrams。您应该在相关的文本语料库中收集它们（与您的OCR文本具有相同的主题）。这个问题与拼写检查非常相似 - 如果小字符变化导致概率增加很大则是一个错误。检查this tutorial如何使用ngram进行拼写检查。

答案 1 :(得分：1)

几年前我使用了n-gram，结果相当不错。我使用了Apache Nutch的语言检测器，它在内部使用word和intraword n-gram。然后将文本的“ngram-profile”与训练材料的n-gram配置文件进行比较。除了语言之外，Nutch还给出了得分/置信度值，我使用了基于语言（应该是文档所在的语言）和分数的硬截止值。保留了大部分带标签的文本，但它的计算成本有点高。