我正在用Java编写一个OCR程序(使用Tesseract从标签生成文本)我希望它能识别输出中的常见错误,例如VV而不是W和NIR而不是MR存储在一个数据库。所以,例如,如果它有一个像“VVEIN,MIR Adam”这样的字符串,它应该改为“WEIN,MR Adam”。
检查字符串是否与任何常见错误文本匹配的最有效方法是什么?我现在能想到的唯一方法是将字符串传递给每个已知错误的一系列正则表达式,但我希望有一种更有效的方法。谢谢:))
答案 0 :(得分:0)
每次更换子字符串时,将String
传递给多个正则表达式都会创建一个新的String
,因为Java中的字符串是不可变的。请改用StringBuilder
。