Java-PDF文件-查找标题

时间:2019-01-31 17:48:43

标签: java string pdf pdfbox

我正在使用PDFBox读取PDF文件。该文件看起来像这样:

                      HEADER1
1. Position
1.1. Position.
1.2. Scope
1.3. Location. 
2. Compensation
2.1. Schedule
2.2. 
3. Term
                      HEADER2
1. Term.
1.1. Position.

页眉的特点是与页面的中心对齐,并且大多位于页面的开头,有时带有下划线。

我看到了一些有关如何找到这样的线条字体的问题:

Get font of each line using PDFBox

建议覆盖PDFTextStripper并替换writeString方法以提取字体,但我不知道该字体是否具有文本对齐方式或下划线。

我希望我不是第一个在PDF中搜索标题的人,并且有一种干净的方法来提取它。

如果根本没有办法获得线的对齐方式并耐候它有下划线?

我应该使用其他包装吗?

0 个答案:

没有答案