在Objective C中提取pdf文本

时间:2010-06-02 17:55:19

标签: iphone objective-c c pdf

到目前为止,我还没有找到一个能够很好地从Objective C中的pdf文件中提取文本以便在iPhone上使用的解决方案。我找到了一些标准的C代码并对其进行了修改,并认为我会在这里提供它,因为到目前为止我已经使用了stackoverflow但是从未回复过。你可以在这里得到它: https://bitbucket.org/zachron/pdfiphone/overview

它将pdf文件的路径作为输入,并返回pdf中文本的nsstring。我没有写大部分内容,但我确实修改了它,因此它适用于iPhone和Objective C.你需要在你的项目中包含Zlib库(iPhone上的libz.dylib),如果有人拿这个并制作它更棒,那是美好的时光。

1 个答案:

答案 0 :(得分:5)

请注意,这仅适用于提取PDF中存储的文本。它不会OCR扫描PDF。如果你想这样做,可以选择使用Tesseract,谷歌的强大和FOSS OCR引擎。它compiles on the iPhone:请参阅Nolan Brown的Tesseract-iPhone-Demo作为一个实例。成像库ImageMagic also compiles on the iPhone,它允许您将PDF转换为TIFF,Tesseract接受它作为输入。