从PDF

时间:2017-10-13 22:43:08

标签: python pdf pdfminer

我现在已经在这里乱哄哄几天了,但还是找不到令人满意的解决方案。从本质上讲,我的目标是从PDF中找到角色的边界框,最终用作OCR系统的训练数据。这意味着我需要从生成的PDF中提取清晰且一致的边界框(就像arxiv中实际包含文本信息的那些,因此能够用光标突出显示)。我一直主要使用python和PDFMiner。

我见过的大多数解决方案目前都比文本行更低,而我遇到的问题是PDF有不同的结构,甚至不可靠。我已经能够通过使用pdftotext的html获得一系列字符,但是这些框的大小不合适,通常会切断对OCR训练至关重要的字符尾端。

谢谢!

0 个答案:

没有答案