应用错误收集

获取PDF页面标题

时间：2011-12-22 13:39:12

标签： itext

是否可以通过iText获取网页标题？

PdfTextExtractor会返回页面中的所有文字，但我不知道标题是哪一行。此外，标题可能包含多行
我不知道标题的坐标因此我无法使用RegionTextRenderFilter
我可以尝试分析字体大小并使用最大字体的行，但TextRenderInfo不提供对gs的公共访问（private final GraphicsState gs）
还有其他想法吗？

1 个答案:

答案 0 :(得分：1)

PDF中的页面没有标题，它们只有粗体或大字体的文本，并且出现在您认为比其他文本更“顶部”的区域中。听起来你已经知道了，我只需要清楚这一点。

请参阅my post here，其中显示了如何通过继承ITextExtractionStrategy来获取字体信息。我的样本目标是iTextSharp，这是iText的.Net端口，但它们匹配功能相当多的功能。最大的区别是Java使用getXXX和setXXX，而.Net只使用XXX。否则一切都应该正常。

故事的寓意是，你必须编写一些任意规则来定义你所认为的“标题”，然后根据这些规则进行解析。