教授OCR以了解NSA和FISC的修订

时间:2013-09-17 22:29:55

标签: unicode imagemagick ocr tesseract leptonica

我正在保存外国情报监视法院发布的大量编辑文件档案。

它们带有大部分文字,如下所示:

screenshot of redacted text

当OCR尝试使用它时,您会得到如下文字:

  

每天生成这些数据,为期90天。这个的唯一目的

     

生产是为了获得支持的外国情报信息

     个人授权调查,以防止国际恐怖主义和

所以在OCRed版本中,有黑色斑点,只有缺少的单词。有时,缺失的单词会创建一个具有不同/奇怪含义的语法正确的句子(如上所述)。其他时候,由此产生的句子毫无意义,但无论哪种方式都是一个问题。如果OCR引擎可以为这些点返回X,或者像▮▮▮▮那样返回Unicode正方形,那会好得多。

我想要的结果是:

  

每天生成这些数据,为期90天。这个的唯一目的

     

制作是为了获取支持XXXXXXXXXXX的外国情报信息

     个人授权调查,以防止国际恐怖主义和

我的问题是如何获得这些X.有没有办法分析图像来识别黑点?有没有办法用X或更好的unicode字符替换它们?我愿意接受任何想法使这看起来正确,但图像编辑对我来说并不适合,也不是在OCR引擎中深入攻击。

1 个答案:

答案 0 :(得分:0)

您可能想要为那些长斑点训练Tesseract。根据blob的长度,您可以指定不同数量的“X”字符。阅读TrainingTesseract3了解培训流程。