如何使用Perl的CAM :: PDF提取PDF文档的第一段?

时间:2009-10-23 14:46:34

标签: perl pdf extraction

如何使用Perl的CAM::PDF

提取PDF文档的第一段

2 个答案:

答案 0 :(得分:1)

print CAM::PDF->new('file.pdf')->getPageText(1);

将从页面中获取所有文本。但是,CAM :: PDF绝对不是这个特定工作的最佳工具(我是作者)。为了看看我是否能做到这一点,我添加了文本提取作为一种心血来潮。

答案 1 :(得分:0)

普通PDF确实不是标记语言。在特定位置绘制文本。有一种名为Tagged PDF的东西,如果您的文件被标记,您的工作可能会更容易。

如果文本作为文本存储在PDF中而不是图像中,我倾向于通过PDF文本翻译器运行文档并抓取第一块文本。