我希望您能快速找到PDF文件中的结构信息,例如Microsoft Word中的H1,H2,H3。我一直在追赶面向流的PDF文件格式,并且对标题运算符不熟悉。或者是否有这样的标题概念。我计划使用这些标题功能来分解PDF以便进行索引和搜索。这样,我可以将PDF文件分为多个部分进行搜索。
我在日志文件中找到了以下内容。我猜这是页面的开始,但不确定它们的重要性。
2018-11-24 16:43:05调试PDFStreamEngine:260-处理子流令牌:PDFOperator {BT} 2018-11-24 16:43:15 DEBUG PDFStreamEngine:260-处理子流令牌:COSName {GS0} 2018-11-24 16:43:21 DEBUG PDFStreamEngine:260-处理子流令牌:PDFOperator {gs} 2018-11-24 16:43:27 DEBUG PDFStreamEngine:260-处理子流令牌:COSName {TT0} 2018-11-24 16:43:38 DEBUG PDFStreamEngine:260-处理子流令牌:COSInt {1} 2018-11-24 16:43调试PDFStreamEngine:260-处理子流令牌:PDFOperator {Tf} 2018-11-24 16:43调试PDFStreamEngine:260-处理子流令牌:COSFloat {0.0031} 2018-11-24 16:43:42 DEBUG PDFStreamEngine:260-处理子流令牌:PDFOperator {Tc} 2018-11-24 16:43:43 DEBUG PDFStreamEngine:260-处理子流令牌:COSFloat {-0.0038} 2018-11-24 16:43调试PDFStreamEngine:260-处理子流令牌:PDFOperator {Tw} 2018-11-24 16:43调试PDFStreamEngine:260-处理子流令牌:COSFloat {9.96} 2018-11-24 16:43:44调试PDFStreamEngine:260-处理子流令牌:COSInt {0}