应用错误收集

我目前正在使用Imagemagick和Tesseract对PDF进行OCR。输入文件是一个表，其中标题包含白色文本上的黑色，行以白色文本上的黑色表示：

我的问题是，Tesseract在白色文字上的黑色方面表现出色，但不知道如何处理黑色文字上的白色。它认为上面图像中的黑色是文本，白色是空格，因此它只是以乱码的形式读取它。

答案似乎是对图像进行预处理，以将所有具有黑色背景和白色文本的文本反转。

据推测，有一篇论文解决了这个问题（请参见Detect white characters on black background using Tesseract的答案），该论文产生了其算法的实现：https://github.com/jasonlfunk/ocr-text-extraction

尽管上面链接的实现在反转表头方面做得很出色，但它也会错误地反转页面其余部分中的白色背景块，包括黑色白色文本。自几年前发表该论文以来，有人知道是否有人解决了这个问题或找到了解决方法？