应用错误收集

我正在保存外国情报监视法院发布的大量编辑文件档案。

它们带有大部分文字，如下所示：

screenshot of redacted text

当OCR尝试使用它时，您会得到如下文字：

每天生成这些数据，为期90天。这个的唯一目的

生产是为了获得支持的外国情报信息
     个人授权调查，以防止国际恐怖主义和

所以在OCRed版本中，有黑色斑点，只有缺少的单词。有时，缺失的单词会创建一个具有不同/奇怪含义的语法正确的句子（如上所述）。其他时候，由此产生的句子毫无意义，但无论哪种方式都是一个问题。如果OCR引擎可以为这些点返回X，或者像▮▮▮▮那样返回Unicode正方形，那会好得多。

我想要的结果是：

每天生成这些数据，为期90天。这个的唯一目的

制作是为了获取支持XXXXXXXXXXX的外国情报信息
     个人授权调查，以防止国际恐怖主义和

我的问题是如何获得这些X.有没有办法分析图像来识别黑点？有没有办法用X或更好的unicode字符替换它们？我愿意接受任何想法使这看起来正确，但图像编辑对我来说并不适合，也不是在OCR引擎中深入攻击。