应用错误收集

我想写一个算法，让我检测句子中的非单词。我正在使用法语文档，并且正在使用OCR识别其中的句子。

有时，OCR（Tess4J-Tesseract OCR for Java）将文档的某些部分识别为单词，例如签名或其他非单词的东西。

这样，我得到了一些奇怪的结果。参见下面的示例：

list

这里的序列l'intéressé(e) devra contacter le Ministère du_Développement durable et des Infrastructures pour se faire délivrer un permis de conduire. æ P CÂ_ä'”“":æ“"—g fin de document.不是单词。

那么，如何检测这些“怪异”的单词并将其删除？

如何检测文本中的非单词？

0 个答案: