使用Apache PdfBox在两个书签之间提取文本

时间:2012-03-06 07:21:59

标签: java pdf pdfbox

我正在使用Apache PDFBox来读取具有由书签定义的层次结构的PDF文档。层次结构采用树形式,内容仅在叶级别。

使用以下代码在两个叶级书签之间提取文本:

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(),
Stripper.writeText()), 

返回整个页面中的文本。简而言之,我的问题类似于this thread中提到的问题。

有没有办法在两个书签之间提取内容?

如果是这样,我的代码应该有什么变化?

1 个答案:

答案 0 :(得分:0)

我猜您的书签不包含正确的数据。

听起来您使用的书签只指向内容开始的页面,而不是页面上的位置

以下是包含位置数据的书签示例:

<Title Action="GoTo" Style="bold" Page="2 FitH 518">
Title Name
</Title>