答案 0 :(得分:1)
这些模块可以实现pdf中的提取文本
来自CPAN
my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(1);
print CAM::PDF::PageText->render($pageone_tree);
此模块尝试从PDF页面中提取顺序文本。这不是一个强大的过程,因为PDF文本以图形方式按任意顺序排列。该模块使用一些启发式方法来尝试猜测其他文本旁边的文本,但可能会被下标,非水平文本,字体更改,表单字段等轻易欺骗。
除了这些免责声明之外,它对于从简单的PDF文件中快速转储文本非常有用。
更新
在http://search.cpan.org/dist/CAM-PDF/lib/CAM/PDF.pm
中详细阅读abit但有一些方法,如:
$self->getFontNames(pagenum)
其他可能有用的人。