我们可以使用C,C ++或Java(任何语言)将PDF文件转换为HTML吗?

时间:2011-05-10 12:22:15

标签: java c++ html pdf

我需要将PDF文件转换为HTML文件(IOS平台),以便我可以使用Javascript注释HTML页面。我在注释HTML页面方面取得了一些成功,所以如果我可以将PDF转换为HTML,我就可以完成我的任务。我该如何进行转换?

2 个答案:

答案 0 :(得分:10)

转换FROM PDF通常非常难(充其量)。

PDF包含绘图说明。 “从这里到那里的线”,“这些坐标处的这些字符”。 通常没有关于这些行,字符和图像的逻辑含义的信息,尽管“文档结构”变得越来越普遍。

如果没有“文档结构”和“标记内容”,很难从“一堆行和字符”转到“在这些列和行中包含此信息的表”。< / p>

并非不可能,只是很难。

那些解决这个问题的人并不是对免费共享代码感兴趣。

答案 1 :(得分:1)

很难转换任何pdf,其中一些对于HTML来说太复杂了。

看看libpoppler它已经有pdf2html函数,它是开源的,你可以随时扩展它,所以它符合你的要求。