阅读包含所有格式信息的现有PDF文件

时间:2009-08-29 14:08:25

标签: pdf

我想阅读现有的PDF文件,不仅要获取文本,还要获取格式信息,如:Font(Bold,Italic ...)和段落......是否有用于执行此操作的代码库,是它是开源还是商业?

我在Windows上并且喜欢C#库,但C / C ++也是可以接受的。

3 个答案:

答案 0 :(得分:1)

我非常推荐 pdflib(http://www.pdflib.com/)。 它的商业广告,但它也有一个精简版本,你可以私下免费使用。它包含非常多的功能,适用于所有平台。

答案 1 :(得分:0)

我会回应迈耶斯先生。似乎有很多;在您最喜欢的搜索引擎中搜索“pdf解析器库”(加上您的语言)。

一些热门歌曲:

http://www.lowagie.com/iText/

http://metacpan.org/pod/PDF::Parse

http://podofo.sourceforge.net/

http://www.vicman.net/download/13733/(几个用于.NET)

请注意,如果您要编辑现有PDF,可能需要阅读:

http://1t3xt.info/tutorials/faq.php?branch=faq.pdf_in_general&node=replace_word

答案 2 :(得分:0)

Pdfium.Net SDK也可以为您提供帮助。通过此API,您可以访问文本,图像和其他对象及其属性的集合。 请注意,我在开发此API的公司工作。