我尝试阅读pdf文档并提取pdf文档中的所有标题。 头条新闻的例子:
1标题
1.1标题示例1
1.2标题示例2
1.2.1标题示例3
为此,我使用iText。我想如何找回头条? 谢谢
PdfReader = new PdfReader((new FileInputStream(systemResource.getFile())));
PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader);
for(int i = 1; i <= pdfReader.getNumberOfPages(); i++){
TextExtractionStrategy simpleTextExtractionStrategy = parser.processContent(i, new SimpleTextExtractionStrategy());
simpleTextExtractionStrategy.getResultantText();
}
答案 0 :(得分:1)
PDF标准中基本上有两组可用。
未标记:PDF文档仅包含查看者能够呈现页面的说明。
例如:
如果您的PDF文档已被标记,则可以轻松检索文档结构(以及您的标题)。
如果PDF文档未标记,则需要编写自己的自定义逻辑来标识文本块(将原始数据提供给IEventListener
)。您需要将这些块合并为行(基于某些启发式)。然后你就能识别标题(使用“以数字开头”或“字体通常大于页面上的平均字体大小等”的启发式方法等)