使用javascript进行PDF转换为DOM

时间:2011-12-19 10:12:38

标签: javascript pdf pdf-conversion

我已经有很长一段时间了,而我所能发现的只有pdf2dom解析器,可能是this的逆向工程版本。无论如何,这是我的问题。对于任何渲染引擎,其输入应该是数据流(在我的例子中是pdf内容),并且其输出应该是所选择的格式(在我的例子中是DOM,HTML和CSS)。

  1. 但是,有可能我从服务器获取“pdf数据”流(我不知道)并存储到javascript变量并使用javascript,而不是使用java或c ++渲染它并将其附加到DOM?

  2. 如何显示原始“pdf数据”(是否有任何特定格式......等)?

  3. 欢迎所有输入。

    注意:应与IE兼容。

2 个答案:

答案 0 :(得分:6)

已经完成了。结果是pdf.js。请注意,它通过将PDF渲染到画布上来工作。结果可以这样保证;目前在画布之外无法实现PDF的某些功能。

答案 1 :(得分:2)

PDF通常是PostScript +选项的一个子集,用于嵌入Flash,JavaScript和各种其他内容。

将PDF简单地翻译成HTML(/ DOM),并以正确的方式呈现它几乎是不可能的。例如,PDF使用JPEG图像,但在这里和那里进行细微的更改,这意味着您必须在使用之前将其转换为其他地方。尝试阅读PDF.js-guys中的一些演示文稿,你会发现很长的WTF列表。

但是,如果你只有简单的PDF(纯文本;没有图像等)并且不关心保留除最简单的布局之外的任何东西,你应该能够从PDF中删除字符串数据并将其放入进入DOM。

然而,就个人而言,我认为强制用户拥有插件(flash / acrobat / ...)或呈现PDF服务器端并将其作为图像提供给浏览器会更简单。