PDF到HTML或类似

时间:2011-06-06 13:14:38

标签: pdf-conversion pdf-viewer pdfview

我正在构建一个应用程序,通过浏览器查看pdf,而无需移动设备上的插件。我尝试使用ImageMagick和ghostscript将页面转换为图像,但它们太大而且文本变得不清楚。我看到网站提供将pdf转换为html并进行下降工作的服务,但我找不到如何实现这一目标的示例。任何帮助深表感谢。谢谢!

3 个答案:

答案 0 :(得分:1)

编辑:我好像已经向后看了这个问题。在这种情况下,最好解析PDF,然后根据您找到的内容格式化一些HTML。我相信javapdf选项能够做到这一点,但我没有使用过这些,所以我不确定。如果情况变得更糟,并且您无法找到用于反汇编PDF的软件,那么您可以通过阅读PDF规范来编写自己的Java或PHP反汇编程序。祝你好运!

http://www.adobe.com/devnet/pdf/pdf_reference.html - PDF规范(Adobe修订版,因为它们最受欢迎,您可能希望支持其扩展程序)

- OLD - 这些网站可能会编写自己的专有软件来完成这项工作。如果您真的对这项工作感兴趣,我建议解析HTML以获取数据和样式信息,并使用它来格式化某种PDF编写器API。快速Google搜索会产生以下结果: - END OLD -

http://www.cutepdf.com/Solutions/

http://ruby-pdf.rubyforge.org/pdf-writer/doc/index.html

http://asprise.com/product/javapdf/

答案 1 :(得分:1)

如果您正在考虑将PDF转换为HTML并计划在服务器上运行转换,那么您可以尝试使用pdf2html。它是作为poppler-utils的一部分打包的程序。我不知道该程序如何实现它。

答案 2 :(得分:1)

我在Google上搜索,并看到了解释scridb.com如何实现转换的以下链接。 http://coding.scribd.com/2010/06/01/the-perils-of-stacking/