我有许多扫描的文档图像,其中包含用非常细的空白和垂直线分隔的文本列。我已经成功地以编程方式找到了垂直线并分离了各列,然后使用PyTessBaseAPI.SetRectangle()
和.GetHOCRText()
获得了每个的hOCR。
使用hocr-pdf(使用reportlab.pdfgen
),然后生成PDF。 OCR文本与图像正确对齐,但是选择文本会跨越两列并产生乱码输出:
giverenke iRødbyfor Kost og Logis til etBeløbborg,为Arrestanten Andreas Fredriksen,født
af 67 Kroner 64Øre,同上,Forladt Byen iHornbækden 1.十二月。 1852. [2500]。
卑鄙的乌冬。 De ere den 31. f.M.直到3)Birkedommeren i K.A.桑德·伯克(SøndreBirk),厄本廷格(纳克斯科夫(Nakskov),男人在科索尔(laKorsør)大街上为乌拉特·丹登(Uden)献上了乌拉登(Ardenanten Johan Jacob Car-)
西格维瑟尔·安德森德斯母鸡。德·贝德斯·斯蒂芬·德·贝德斯·史德芬,1854年10月30日生。
我需要按逻辑将结果PDF中的各列分开,但是在reportlab
文档中看不到任何有助于实现此目的的东西。
由于不确定词汇表,我很难找到解决方法。