我目前正在使用Imagemagick和Tesseract对PDF进行OCR。输入文件是一个表,其中标题包含白色文本上的黑色,行以白色文本上的黑色表示:
我的问题是,Tesseract在白色文字上的黑色方面表现出色,但不知道如何处理黑色文字上的白色。它认为上面图像中的黑色是文本,白色是空格,因此它只是以乱码的形式读取它。
答案似乎是对图像进行预处理,以将所有具有黑色背景和白色文本的文本反转。
据推测,有一篇论文解决了这个问题(请参见Detect white characters on black background using Tesseract的答案),该论文产生了其算法的实现:https://github.com/jasonlfunk/ocr-text-extraction
尽管上面链接的实现在反转表头方面做得很出色,但它也会错误地反转页面其余部分中的白色背景块,包括黑色白色文本。自几年前发表该论文以来,有人知道是否有人解决了这个问题或找到了解决方法?