如何确保PDF中的列在逻辑上分开?

时间:2019-02-06 10:47:46

标签: python pdf-generation tesseract reportlab hocr

我有许多扫描的文档图像,其中包含用非常细的空白和垂直线分隔的文本列。我已经成功地以编程方式找到了垂直线并分离了各列,然后使用PyTessBaseAPI.SetRectangle().GetHOCRText()获得了每个的hOCR。

使用hocr-pdf(使用reportlab.pdfgen),然后生成PDF。 OCR文本与图像正确对齐,但是选择文本会跨越两列并产生乱码输出:

Example

  

giverenke iRødbyfor Kost og Logis til etBeløbborg,为Arrestanten Andreas Fredriksen,født

     

af 67 Kroner 64Øre,同上,Forladt Byen iHornbækden 1.十二月。 1852. [2500]。

     卑鄙的乌冬。 De ere den 31. f.M.直到3)Birkedommeren i K.A.桑德·伯克(SøndreBirk),厄本廷格(      

纳克斯科夫(Nakskov),男人在科索尔(laKorsør)大街上为乌拉特·丹登(Uden)献上了乌拉登(Ardenanten Johan Jacob Car-)

     西格维瑟尔·安德森德斯母鸡。德·贝德斯·斯蒂芬·德·贝德斯·史德芬,1854年10月30日生。

我需要按逻辑将结果PDF中的各列分开,但是在reportlab文档中看不到任何有助于实现此目的的东西。

由于不确定词汇表,我很难找到解决方法。

0 个答案:

没有答案