应用错误收集

通过Java阅读PDF并获取HTML内容

时间：2010-05-21 10:14:29

标签： pdf

我想阅读现有的PDF文件，不仅要获取文本，还要获取格式信息，如：字体（粗体，斜体），段落，图像，表格。基本上我想写一个类似于PDF的HTML。

是否有用于执行此操作的代码库？我正在寻找一个开源库。

此致蒂娜·阿格拉瓦尔

2 个答案:

答案 0 :(得分：3)

尝试PDFBox或iText。它们是开源的，可以处理文本，图像，表格等。

答案 1 :(得分：0)

如果您需要页面的精确版本，则可能需要创建页面图像并在其上放置不可见文本。我们可以在http://www.jpedal.org/PDFblog/2012/08/4-ways-to-convert-pdf-to-html5/上通过PDF转换为HTML转换，在我们的博客上看到可能的内容。