iOS从pdf获取文本

时间:2012-12-14 10:30:47

标签: ios ios5 pdf pdf-generation pdf-extraction

您好我正在开发一个快速阅读应用程序,我正在寻找一些提示或建议。在这个应用程序中,我必须使用不同的阅读技术,这需要格式化pdf不同大小的文本。用于无图片自动滚动的技术。有人已经知道该怎么做吗?还是有一个例子?

1 个答案:

答案 0 :(得分:1)

如果PDF包含奇怪格式化或包含在图像中的文本,那么你没有运气,否则有几个ObjC库可用(在github上)

它们都包装了CoreGraphics CDPDF *函数

这不是那么容易,也不能用单行代码回答,但基本方法是:

  1. 获取CGPDFDocument
  2. 获取每个PDFPage
  3. 获取每个页面的CGPDFDictionary并解析它。它将在pdf页面中为您提供所有对象
  4. 遇到的foreach字符串,调用CGPDFStringCopy并将其附加到充当缓冲区的mutableString
  5. 缓冲区是doc的文本