我想阅读现有的PDF文件,不仅要获取文本,还要获取格式信息,如:字体(粗体,斜体),段落,图像,表格。基本上我想写一个类似于PDF的HTML。
是否有用于执行此操作的代码库?我正在寻找一个开源库。
此致 蒂娜·阿格拉瓦尔
答案 0 :(得分:3)
答案 1 :(得分:0)
如果您需要页面的精确版本,则可能需要创建页面图像并在其上放置不可见文本。我们可以在http://www.jpedal.org/PDFblog/2012/08/4-ways-to-convert-pdf-to-html5/上通过PDF转换为HTML转换,在我们的博客上看到可能的内容。