是否有任何良好的NLP或统计技术可用于检测OCR文本中的乱码?在我的脑海中,我认为在文本中查看n-gram的分布可能是一个很好的起点,但我对整个NLP域都很陌生。
以下是我到目前为止所看到的内容:
该文本主要是英文,但一般解决方案会很好。该文本目前在Lucene中编入索引,因此任何关于基于术语的方法的想法也都会有用。
任何建议都会很棒!谢谢!
答案 0 :(得分:4)
是的,在这种情况下最有力的是Ngrams。您应该在相关的文本语料库中收集它们(与您的OCR文本具有相同的主题)。这个问题与拼写检查非常相似 - 如果小字符变化导致概率增加很大则是一个错误。检查this tutorial如何使用ngram进行拼写检查。
答案 1 :(得分:1)