我正在保存外国情报监视法院发布的大量编辑文件档案。
它们带有大部分文字,如下所示:
当OCR尝试使用它时,您会得到如下文字:
每天生成这些数据,为期90天。这个的唯一目的
生产是为了获得支持的外国情报信息
个人授权调查,以防止国际恐怖主义和
所以在OCRed版本中,有黑色斑点,只有缺少的单词。有时,缺失的单词会创建一个具有不同/奇怪含义的语法正确的句子(如上所述)。其他时候,由此产生的句子毫无意义,但无论哪种方式都是一个问题。如果OCR引擎可以为这些点返回X,或者像▮▮▮▮那样返回Unicode正方形,那会好得多。
我想要的结果是:
每天生成这些数据,为期90天。这个的唯一目的
制作是为了获取支持XXXXXXXXXXX的外国情报信息
个人授权调查,以防止国际恐怖主义和
我的问题是如何获得这些X.有没有办法分析图像来识别黑点?有没有办法用X或更好的unicode字符替换它们?我愿意接受任何想法使这看起来正确,但图像编辑对我来说并不适合,也不是在OCR引擎中深入攻击。