PDF到结构化格式

时间:2012-07-02 02:17:09

标签: html xml pdf

我有大量的PDF需要转换为我能解释的结构化格式(HTML / XML /等)

PDF格式如下: http://img840.imageshack.us/img840/5407/pdfv.png

到目前为止,我已经尝试过许多转换为HTML的软件,但是它们都无法分离图像,它们只是像没有文本的页面的打印屏幕一样,然后使用此图像作为背景html,使用css定位文本

像这样:http://img37.imageshack.us/img37/5015/examplelp.jpg

我有一堆PDF,因此手动处理每个图像都不是一个选项。有谁知道这个解决方案(甚至付费软件)?

1 个答案:

答案 0 :(得分:3)

我有一段时间遇到过类似的问题并最终编写了自己的解决方案。它被称为PDFX,它可以免费使用。它将PDF转换为结构化格式的XML,并且还可以单独呈现PDF中的任何位图图像(而不是矢量图形)。

可以找到示例输入/输出here。你可能想尝试一下。