是否可以使用perl读取pdf文件中的文本?

时间:2010-10-29 06:22:20

标签: perl

我想解析perl中的pdf文件中的文本,而不将pdf转换为任何其他格式。可能吗 ?

1 个答案:

答案 0 :(得分:8)

是的,你可以。

查看CAM::PDF包。

您可以使用此模块将文本拉出来。

 my $pdf = CAM::PDF->new($filename);
 my $pageone_tree = $pdf->getPageContentTree(1);
 print CAM::PDF::PageText->render($pageone_tree);