是否可以通过iText
获取网页标题?
PdfTextExtractor
会返回页面中的所有文字,但我不知道标题是哪一行。此外,标题可能包含多行RegionTextRenderFilter
private final GraphicsState gs
)答案 0 :(得分:1)
PDF中的页面没有标题,它们只有粗体或大字体的文本,并且出现在您认为比其他文本更“顶部”的区域中。听起来你已经知道了,我只需要清楚这一点。
请参阅my post here,其中显示了如何通过继承ITextExtractionStrategy
来获取字体信息。我的样本目标是iTextSharp,这是iText的.Net端口,但它们匹配功能相当多的功能。最大的区别是Java使用getXXX
和setXXX
,而.Net只使用XXX
。否则一切都应该正常。
故事的寓意是,你必须编写一些任意规则来定义你所认为的“标题”,然后根据这些规则进行解析。