我想阅读现有的PDF文件,不仅要获取文本,还要获取格式信息,如:Font(Bold,Italic ...)和段落......是否有用于执行此操作的代码库,是它是开源还是商业?
我在Windows上并且喜欢C#库,但C / C ++也是可以接受的。
答案 0 :(得分:1)
我非常推荐 pdflib(http://www.pdflib.com/)。 它的商业广告,但它也有一个精简版本,你可以私下免费使用。它包含非常多的功能,适用于所有平台。
答案 1 :(得分:0)
我会回应迈耶斯先生。似乎有很多;在您最喜欢的搜索引擎中搜索“pdf解析器库”(加上您的语言)。
一些热门歌曲:
http://metacpan.org/pod/PDF::Parse
http://podofo.sourceforge.net/
http://www.vicman.net/download/13733/(几个用于.NET)
请注意,如果您要编辑现有PDF,可能需要阅读:
http://1t3xt.info/tutorials/faq.php?branch=faq.pdf_in_general&node=replace_word
答案 2 :(得分:0)
Pdfium.Net SDK也可以为您提供帮助。通过此API,您可以访问文本,图像和其他对象及其属性的集合。 请注意,我在开发此API的公司工作。