是否有任何类,COM对象,命令行实用程序或其他任何可以为其创建API的PDF都可以将PDF转换为HTML文档?显然,转换可能有点粗糙,因为PDF可以包含比HTML描述的更多的内容。我在Source Forge上找到了一个名为 pdftohtml 的实用程序,但老实说它在转换时执行了一个可怕的工作。我不在乎该软件是免费的还是商业的,但是有什么东西可以与我自己的软件合并,至少可以做到这种转换吗?我知道谷歌开发了他们自己的方法,因为你可以点击通过Gmail附加到电子邮件的PDF上的“以HTML格式查看”,但我希望公众能够获得一些东西。
请记住,PDF到HTML。我不担心HTML到PDF。
答案 0 :(得分:0)
我能想到的一个解决方案就是编写一个小程序,使用名为iText的库读取pdf文本,然后生成html文件。
答案 1 :(得分:0)
对于基于java的PDF解决方案...我们没有一个干净的方式我猜 - 仍然...所有的解决方案都是原始的和一种解决方法...没有简单的解决方案 1.设计PDF模板 2.然后在运行时使用java,将数据填充到此模板中......使用xml或其他数据源...
这么简单的要求,NONE还有一个很好的“开源免费”解决方案!
Eclipse BIRT接近..但不处理Barcode元素..OOB。
答案 2 :(得分:0)
您正在寻找pdf2htmlEX(C ++),它可以将PDF转换为HTML而不会丢失文本或格式。
要进一步转换为语义HTML,您可以使用我的项目Transcript(Python)处理pdf2htmlEX输出。然而,它不再是无损的,并且在不偏离传统视觉布局的文档上效果最好。