应用错误收集

PDF到结构化格式

时间：2012-07-02 02:17:09

标签： html xml pdf

我有大量的PDF需要转换为我能解释的结构化格式（HTML / XML /等）

PDF格式如下： http://img840.imageshack.us/img840/5407/pdfv.png

到目前为止，我已经尝试过许多转换为HTML的软件，但是它们都无法分离图像，它们只是像没有文本的页面的打印屏幕一样，然后使用此图像作为背景html，使用css定位文本

像这样：http://img37.imageshack.us/img37/5015/examplelp.jpg

我有一堆PDF，因此手动处理每个图像都不是一个选项。有谁知道这个解决方案（甚至付费软件）？

1 个答案:

答案 0 :(得分：3)

我有一段时间遇到过类似的问题并最终编写了自己的解决方案。它被称为PDFX，它可以免费使用。它将PDF转换为结构化格式的XML，并且还可以单独呈现PDF中的任何位图图像（而不是矢量图形）。

可以找到示例输入/输出here。你可能想尝试一下。