我正在使用PDFBox读取PDF文件。该文件看起来像这样:
HEADER1
1. Position
1.1. Position.
1.2. Scope
1.3. Location.
2. Compensation
2.1. Schedule
2.2.
3. Term
HEADER2
1. Term.
1.1. Position.
页眉的特点是与页面的中心对齐,并且大多位于页面的开头,有时带有下划线。
我看到了一些有关如何找到这样的线条字体的问题:
Get font of each line using PDFBox
建议覆盖PDFTextStripper
并替换writeString
方法以提取字体,但我不知道该字体是否具有文本对齐方式或下划线。
我希望我不是第一个在PDF中搜索标题的人,并且有一种干净的方法来提取它。
如果根本没有办法获得线的对齐方式并耐候它有下划线?
我应该使用其他包装吗?