如何检测文本中的非单词?

时间:2019-05-07 13:33:33

标签: java string nlp opennlp

我想写一个算法,让我检测句子中的非单词。我正在使用法语文档,并且正在使用OCR识别其中的句子。

有时,OCR(Tess4J-Tesseract OCR for Java)将文档的某些部分识别为单词,例如签名或其他非单词的东西。

这样,我得到了一些奇怪的结果。参见下面的示例:

list

这里的序列l'intéressé(e) devra contacter le Ministère du_Développement durable et des Infrastructures pour se faire délivrer un permis de conduire. æ P CÂ_ä'”“":æ“"—g fin de document. 不是单词。

那么,如何检测这些“怪异”的单词并将其删除?

0 个答案:

没有答案