我正在研究pdf viewer。我想提取pdf的所有内容。将cgpdgscanner获取pdf的所有内容
苹果文档非常简短。很难用给出的解释来实现。很多googlin也无处可去。
所以有人可以解释使用目的和使用以下内容:
1.CGPDFOperatorTableRef
2.CGPDFOperatorTableSetCallback
3.CGPDFScannerRef
4.CGPDFContentStreamRef
一旦完成此操作,如何查看解析后获得的数据。
提前感谢。
答案 0 :(得分:1)
解析pdf内容并不是什么大问题,但更难以突出显示PDF格式的搜索文本。
对于解析,请按照以下网址发布。
http://www.random-ideas.net/posts/42
对于确切的读者,请获取以下代码(但它显示了笨拙的徽标)
https://github.com/mobfarm/FastPdfKit
由于
答案 1 :(得分:0)
CGPDFScanner将解析PDF图形内容流(页面内容或表单XObject内容)。这是非常低级的PDF,您必须知道PDF规范才能解释解析的结果。每次遇到您感兴趣的运算符时,CGPDFScanner都会调用您的方法.CGPDFOperatorTable存储您想要通知的运算符列表。如果要提取所有内容,则必须使用所有PDF图形运算符填充此表。每个运算符与扫描程序在PDF内容流中找到运算符时调用的方法(回调)相关联。
CGPDFScannerRef是PDF扫描程序,CGPDFContentStreamRef是PDF内容流,是与PDF对象关联的流。此流的内容取决于与此流关联的PDF对象。