标签: pdf pdfbox
我正在使用apache pdfbox框架来阅读pdf文本内容。 我必须从“目录”页面(如果存在于pdf中)获取内容,应该能够通过pdfbox api识别内容表页面。 请提供你的建议。
答案 0 :(得分:5)
PDF文件中的内容表格不容易通过您从PDF文档中提取的任何结构来识别。您必须进行文本提取并根据其属性识别内容表。
PDF一般不包含目录,章节,页眉,页脚甚至段落或文字行等内容结构。