如何使用Perl的CAM::PDF?
提取PDF文档的第一段答案 0 :(得分:1)
print CAM::PDF->new('file.pdf')->getPageText(1);
将从页面中获取所有文本。但是,CAM :: PDF绝对不是这个特定工作的最佳工具(我是作者)。为了看看我是否能做到这一点,我添加了文本提取作为一种心血来潮。
答案 1 :(得分:0)
普通PDF确实不是标记语言。在特定位置绘制文本。有一种名为Tagged PDF的东西,如果您的文件被标记,您的工作可能会更容易。
如果文本作为文本存储在PDF中而不是图像中,我倾向于通过PDF文本翻译器运行文档并抓取第一块文本。