我需要从PDF文档中提取表格对象,最好使用Perl以编程方式提取。我可以剪切并粘贴到Excel,但是一旦将数据导入Excel,该表将需要相当多的手动编辑。
我已经做了一些搜索,但到目前为止,似乎大多数论坛都认为大多数API都非常原始。
答案 0 :(得分:2)
我所知道的在perl中处理PDF的最佳模块是PDF::API2。但是,如果不了解更多关于操作的信息,您需要尽力提供进一步的建议。另一种可能性是使用Excel的内置VB功能进行编程,这样当您将表格复制到Excel电子表格时,它会触发一个宏,该宏将为您执行格式化。
答案 1 :(得分:1)
我认为最好的CPAN模块可能是CAM::PDF
。
但是我没有使用该模块,所以我无法确认它会(轻松地)执行您需要的操作,但它是PDF manipulation library
而modules author does answer questions关于CAM::PDF
这里是SO。
另见上一个问题:How can I extract text from a PDF file in Perl?
/ I3az /