从PDF文档页面中提取标题信息

时间:2013-05-15 18:26:44

标签: java pdf itext

使用Java 1.6和iText:

我正在尝试从PDF文档中提取标题信息。通过“标题”,我特别谈到类似于在MS Word文档中查看的标题,而不是文件标题。该文档可以包含一到多页。每个页面都有一个唯一的标题,用于标识页面的内容。最终,我需要将页面分成单独的PDF文档,然后提取标题以确定文档的标题。标题文本可能不可见但会存在。

我对页面分离没有任何问题,但我对标题提取很不满意。我见过的所有文档都谈到了为PDF文档创建标题,但我还没有看到有关读取/提取标题的任何信息。

0 个答案:

没有答案