我想使用IcePDF
或PDFBox
从PDF中提取内容。但我现在不能继续从提取的文本和图像中生成HTML
个网页。
答案 0 :(得分:2)
您可以使用PDFBox将pdf转换为html。试试this link。
通过在提取文本时添加-html作为参数,您将获得pdf的html。但它不包含任何图像,图形和其他细节。它只是以html格式从pdf中提取的文本。
如果要创建pdf的精确外观,PDFBox中没有单步方法。据我所知,没有库提供此工具来创建pdf的精确html。但是使用PDFBox可以提取图像,文本及其细节。使用这些细节,您必须创建一个逻辑来生成html。我们已经完成了一个将pdf转换为azzist.com的html的项目。我们已经使用PDFBox完成了转换。在azzist中,我们将简历转换为html格式。 (还有一些字体问题)。
Scribd,google,dropbox,zoho等以更好的方式完成了这种转换。您可以查看这些网站中的任何一个,以查看他们是如何完成此任务的。 (你不会得到逻辑。你必须找到它。)