答案 0 :(得分:4)
结帐libpoppler。我从来没有用它来提取文本,只是查询PDF属性。这很容易使用。
答案 1 :(得分:2)
你需要解析它们的程度如何? 只提取字符串应该相对容易,完全准确的渲染更难。 看一下evince或ghostscript的来源?
这适用于C ++,但可能是理解PDF结构的一个很好的起点http://www.codeproject.com/KB/cpp/ExtractPDFText.aspx(之前抱歉的错误链接)
答案 2 :(得分:0)
另一种可能,虽然我从未使用它是VersyPDF。它声称允许您编辑PDF ... http://versypdf.sybrex-systems-ltd.qarchive.org/