检测字符串中的未知字符

时间:2019-02-09 22:22:48

标签: java string ocr tesseract tess-two

我正在使用Android的Tess Two库从位图读取文本。 我得到以下(看上去是)“─”,其备用代码为ALT196。

我正在使用正则表达式扫描不良字符。此未知字符表示位图中的减号。因此,我真的需要保留它。

从下面的代码中可以看到,我的正则表达式清除了坏字符 请求保留ALT196字符和减号。

我真的很想识别这个角色。一个非常重要的线索是,我正在使用Tess Two库中经过英语和Equ训练的数据文件。

这是我的代码,可以清除坏字符

        s2 = s2.replaceAll("[^0-9,\\-,+,*,√,\\(,\\),\\[,\\],²,³,÷,\\.,\\|,\\/,\\,,a-z,A-Z,ƒ,×,~,≈,=,\\%,±,$,<,>,≤,≥,∞,Σ,π,≡,ⁿ,¹,°,∩,µ,⌠,⌡,:,{,},\\?,\\─,_,·]","");

请注意,s2是发生“ OCR”之后返回的字符串。 看我张贴的照片。最后一行是“ s2”,应包含此未知字符。enter image description here

0 个答案:

没有答案