我目前正在一个项目中提取pdf文件的内容并在其中搜索某些关键字。 为了提取我使用PDFBox的内容,这很好用。 我现在遇到的问题是我希望只能在章节标题中搜索某些关键字。
目前我的提取代码如下:
PDDocument doc = PDDocument.load(pdfFile);
String text = new PDFTextStripper().getText(doc);
doc.close();
这只提取文件的原始文本,没有关于标题的信息。我无法弄清楚如何使用PDFBox来包含这些信息。所以我不确定这是否可能。
有没有人使用过这个工具,可以告诉我,如果可以通过使用PDFBox来实现这一点,如果可以的话,我将如何实现这一目标?
亲切的问候