应用错误收集

我现在已经在这里乱哄哄几天了，但还是找不到令人满意的解决方案。从本质上讲，我的目标是从PDF中找到角色的边界框，最终用作OCR系统的训练数据。这意味着我需要从生成的PDF中提取清晰且一致的边界框（就像arxiv中实际包含文本信息的那些，因此能够用光标突出显示）。我一直主要使用python和PDFMiner。

我见过的大多数解决方案目前都比文本行更低，而我遇到的问题是PDF有不同的结构，甚至不可靠。我已经能够通过使用pdftotext的html获得一系列字符，但是这些框的大小不合适，通常会切断对OCR训练至关重要的字符尾端。

谢谢！

从PDF

0 个答案: