应用错误收集

我希望您能快速找到PDF文件中的结构信息，例如Microsoft Word中的H1，H2，H3。我一直在追赶面向流的PDF文件格式，并且对标题运算符不熟悉。或者是否有这样的标题概念。我计划使用这些标题功能来分解PDF以便进行索引和搜索。这样，我可以将PDF文件分为多个部分进行搜索。

我在日志文件中找到了以下内容。我猜这是页面的开始，但不确定它们的重要性。

2018-11-24 16:43:05调试PDFStreamEngine：260-处理子流令牌：PDFOperator {BT} 2018-11-24 16:43:15 DEBUG PDFStreamEngine：260-处理子流令牌：COSName {GS0} 2018-11-24 16:43:21 DEBUG PDFStreamEngine：260-处理子流令牌：PDFOperator {gs} 2018-11-24 16:43:27 DEBUG PDFStreamEngine：260-处理子流令牌：COSName {TT0} 2018-11-24 16:43:38 DEBUG PDFStreamEngine：260-处理子流令牌：COSInt {1} 2018-11-24 16:43调试PDFStreamEngine：260-处理子流令牌：PDFOperator {Tf} 2018-11-24 16:43调试PDFStreamEngine：260-处理子流令牌：COSFloat {0.0031} 2018-11-24 16:43:42 DEBUG PDFStreamEngine：260-处理子流令牌：PDFOperator {Tc} 2018-11-24 16:43:43 DEBUG PDFStreamEngine：260-处理子流令牌：COSFloat {-0.0038} 2018-11-24 16:43调试PDFStreamEngine：260-处理子流令牌：PDFOperator {Tw} 2018-11-24 16:43调试PDFStreamEngine：260-处理子流令牌：COSFloat {9.96} 2018-11-24 16:43:44调试PDFStreamEngine：260-处理子流令牌：COSInt {0}

pdfparser-文档结构元数据

0 个答案: