应用错误收集

使用＆＃34; PDFBox＃34;如何识别＆＃34;目录＃34;页

时间：2014-05-23 11:50:11

标签： pdf pdfbox

我正在使用apache pdfbox框架来阅读pdf文本内容。我必须从“目录”页面（如果存在于pdf中）获取内容，应该能够通过pdfbox api识别内容表页面。请提供你的建议。

1 个答案:

答案 0 :(得分：5)

PDF文件中的内容表格不容易通过您从PDF文档中提取的任何结构来识别。您必须进行文本提取并根据其属性识别内容表。

PDF一般不包含目录，章节，页眉，页脚甚至段落或文字行等内容结构。