应用错误收集

我有许多扫描的文档图像，其中包含用非常细的空白和垂直线分隔的文本列。我已经成功地以编程方式找到了垂直线并分离了各列，然后使用PyTessBaseAPI.SetRectangle()和.GetHOCRText()获得了每个的hOCR。

使用hocr-pdf（使用reportlab.pdfgen），然后生成PDF。 OCR文本与图像正确对齐，但是选择文本会跨越两列并产生乱码输出：

Example

giverenke iRødbyfor Kost og Logis til etBeløbborg，为Arrestanten Andreas Fredriksen，født

af 67 Kroner 64Øre，同上，Forladt Byen iHornbækden 1.十二月。 1852. [2500]。
     卑鄙的乌冬。 De ere den 31. f.M.直到3）Birkedommeren i K.A.桑德·伯克（SøndreBirk），厄本廷格（
纳克斯科夫（Nakskov），男人在科索尔（laKorsør）大街上为乌拉特·丹登（Uden）献上了乌拉登（Ardenanten Johan Jacob Car-）
     西格维瑟尔·安德森德斯母鸡。德·贝德斯·斯蒂芬·德·贝德斯·史德芬，1854年10月30日生。

我需要按逻辑将结果PDF中的各列分开，但是在reportlab文档中看不到任何有助于实现此目的的东西。

由于不确定词汇表，我很难找到解决方法。

如何确保PDF中的列在逻辑上分开？

0 个答案: