我想写一个算法,让我检测句子中的非单词。我正在使用法语文档,并且正在使用OCR识别其中的句子。
有时,OCR(Tess4J-Tesseract OCR for Java)将文档的某些部分识别为单词,例如签名或其他非单词的东西。
这样,我得到了一些奇怪的结果。参见下面的示例:
list
这里的序列l'intéressé(e) devra contacter le Ministère du_Développement durable et des Infrastructures pour se faire délivrer un permis de conduire. æ P CÂ_ä'”“":æ“"—g fin de document.
不是单词。
那么,如何检测这些“怪异”的单词并将其删除?