如何使用PDFBox

时间:2017-06-29 16:09:01

标签: parsing pdf pdfbox

我正在开发一个解析pdf文件和提取文本的项目。我正在使用TextPosition类生成一个数据结构,其中包含pdf文件中每个字符的位置和大小。

我遇到的问题是,pdf中有一个自定义的Type 3字体,字体非常大。在屏幕上看起来与字体大小9相关的字体实际上设置为字体大小0.24。我试图尝试使用fontDescriptor来尝试获取字体的上限高度并使用它,但它是null。此外,页面上还有另一种字体,其上方和下方有大量的空白区域,使得封面高度无法使用。以下是TextPosition类在页面上的随机字符的外观。

enter image description here

我希望有人知道如何获得正确的pt字体大小?

由于

0 个答案:

没有答案