如何以编程方式将PDF转换为HTML?

时间:2010-03-25 22:17:33

标签: html pdf

是否有任何类,COM对象,命令行实用程序或其他任何可以为其创建API的PDF都可以将PDF转换为HTML文档?显然,转换可能有点粗糙,因为PDF可以包含比HTML描述的更多的内容。我在Source Forge上找到了一个名为 pdftohtml 的实用程序,但老实说它在转换时执行了一个可怕的工作。我不在乎该软件是免费的还是商业的,但是有什么东西可以与我自己的软件合并,至少可以做到这种转换吗?我知道谷歌开发了他们自己的方法,因为你可以点击通过Gmail附加到电子邮件的PDF上的“以HTML格式查看”,但我希望公众能够获得一些东西。

请记住,PDF到HTML。我担心HTML到PDF。

3 个答案:

答案 0 :(得分:0)

我能想到的一个解决方案就是编写一个小程序,使用名为iText的库读取pdf文本,然后生成html文件。

答案 1 :(得分:0)

对于基于java的PDF解决方案...我们没有一个干净的方式我猜 - 仍然...所有的解决方案都是原始的和一种解决方法...没有简单的解决方案 1.设计PDF模板 2.然后在运行时使用java,将数据填充到此模板中......使用xml或其他数据源...

这么简单的要求,NONE还有一个很好的“开源免费”解决方案!

Eclipse BIRT接近..但不处理Barcode元素..OOB。

答案 2 :(得分:0)

您正在寻找pdf2htmlEX(C ++),它可以将PDF转换为HTML而不会丢失文本或格式。

要进一步转换为语义HTML,您可以使用我的项目Transcript(Python)处理pdf2htmlEX输出。然而,它不再是无损的,并且在不偏离传统视觉布局的文档上效果最好。