我的一位朋友在实习期间2小时前问过我是否可以帮助他避免使用免费在线软件手动462 pdf文件到.xls。
我想到了使用unoconv
的shell脚本,但我没有找到如何正确使用它,我不确定unoconv
是否可以解决这个问题,因为它主要是将文件转换为pdf,而不是相反的事情。
答案 0 :(得分:4)
从PDF到任何其他结构化格式的转换并非总是可行,通常不建议使用。
话虽如此,这确实看起来像是一次性工作,而且他们中的一些人很少(462)。
值得追求的是,如果你可以从大多数文本中可靠地提取文本并且它的结构合理。这是一个尝试在PDF样本中获得常规文本输出的问题,您可以可靠地将其解析为表结构。
围绕该目标有大量工具,无论是基于直接还是基于OCR的文本提取,只需谷歌。
我喜欢的是来自ghostscript套件的pstotext; -bboxes
选项让我得到每个单词的坐标,并让我重新组装结构。尽管它的名字,它确实适用于输入PDF。不足之处在于,它可能有点不稳定,适用于某些PDF而非其他PDF。
如果你做到这一点,那么你很可能需要编写一个shell脚本或程序来将其转换为CSV。您可以通过电子表单直接打开它,也可以查找将其转换为XLS的工具。
PS如果他还没有,请让实习生询问是否有任何可能的方法来获取用于创建PDF的原始数据它将节省大量的时间和精力导致更准确的结果。
更新 pstotext
的替代方法是renderpdf.pl
命令,该命令包含在Perl CAM::PDF模块中。更强大,但只报告文本(x,y)位置,而不是边界框。