我有大量的PDF需要转换为我能解释的结构化格式(HTML / XML /等)
PDF格式如下: http://img840.imageshack.us/img840/5407/pdfv.png
到目前为止,我已经尝试过许多转换为HTML的软件,但是它们都无法分离图像,它们只是像没有文本的页面的打印屏幕一样,然后使用此图像作为背景html,使用css定位文本
像这样:http://img37.imageshack.us/img37/5015/examplelp.jpg
我有一堆PDF,因此手动处理每个图像都不是一个选项。有谁知道这个解决方案(甚至付费软件)?