用C读取Pdf

时间:2009-04-21 14:43:30

标签: c linux pdf libharu

我希望能够阅读pdf文件的内容。我需要在Linux上使用C语言。

我可以越接近here,但我认为Haru只能创建pdf并且无法读取它们(不是100%肯定)。

PS:我只需要pdf中的纯文本

3 个答案:

答案 0 :(得分:4)

结帐libpoppler。我从来没有用它来提取文本,只是查询PDF属性。这很容易使用。

答案 1 :(得分:2)

你需要解析它们的程度如何? 只提取字符串应该相对容易,完全准确的渲染更难。 看一下evince或ghostscript的来源?

这适用于C ++,但可能是理解PDF结构的一个很好的起点http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx(之前抱歉的错误链接)

答案 2 :(得分:0)

另一种可能,虽然我从未使用它是VersyPDF。它声称允许您编辑PDF ... http://versypdf.sybrex-systems-ltd.qarchive.org/