PDFBox:将PDF转换为包含章节标题信息的文本

时间:2016-11-20 13:21:30

标签: java pdfbox text-extraction

我目前正在一个项目中提取pdf文件的内容并在其中搜索某些关键字。 为了提取我使用PDFBox的内容,这很好用。 我现在遇到的问题是我希望只能在章节标题中搜索某些关键字。

目前我的提取代码如下:

PDDocument doc = PDDocument.load(pdfFile);
String text = new PDFTextStripper().getText(doc);
doc.close();

这只提取文件的原始文本,没有关于标题的信息。我无法弄清楚如何使用PDFBox来包含这些信息。所以我不确定这是否可能。

有没有人使用过这个工具,可以告诉我,如果可以通过使用PDFBox来实现这一点,如果可以的话,我将如何实现这一目标?

亲切的问候

0 个答案:

没有答案