应用错误收集

在Objective C中提取pdf文本

时间：2010-06-02 17:55:19

标签： iphone objective-c c pdf

到目前为止，我还没有找到一个能够很好地从Objective C中的pdf文件中提取文本以便在iPhone上使用的解决方案。我找到了一些标准的C代码并对其进行了修改，并认为我会在这里提供它，因为到目前为止我已经使用了stackoverflow但是从未回复过。你可以在这里得到它： https://bitbucket.org/zachron/pdfiphone/overview

它将pdf文件的路径作为输入，并返回pdf中文本的nsstring。我没有写大部分内容，但我确实修改了它，因此它适用于iPhone和Objective C.你需要在你的项目中包含Zlib库（iPhone上的libz.dylib），如果有人拿这个并制作它更棒，那是美好的时光。

1 个答案:

答案 0 :(得分：5)

请注意，这仅适用于提取PDF中存储的文本。它不会OCR扫描PDF。如果你想这样做，可以选择使用Tesseract，谷歌的强大和FOSS OCR引擎。它compiles on the iPhone：请参阅Nolan Brown的Tesseract-iPhone-Demo作为一个实例。成像库ImageMagic also compiles on the iPhone，它允许您将PDF转换为TIFF，Tesseract接受它作为输入。