通过Java阅读PDF并获取HTML内容

时间:2010-05-21 10:14:29

标签: pdf

我想阅读现有的PDF文件,不仅要获取文本,还要获取格式信息,如:字体(粗体,斜体),段落,图像,表格。基本上我想写一个类似于PDF的HTML。

是否有用于执行此操作的代码库?我正在寻找一个开源库。

此致 蒂娜·阿格拉瓦尔

2 个答案:

答案 0 :(得分:3)

尝试PDFBoxiText。它们是开源的,可以处理文本,图像,表格等。

答案 1 :(得分:0)

如果您需要页面的精确版本,则可能需要创建页面图像并在其上放置不可见文本。我们可以在http://www.jpedal.org/PDFblog/2012/08/4-ways-to-convert-pdf-to-html5/上通过PDF转换为HTML转换,在我们的博客上看到可能的内容。