从PDF文件中获取文本属性

时间:2014-08-12 07:38:52

标签: perl pdf

如何使用PDF::API2CAM::PDF获取文字属性?我需要字体大小和样式信息。

类似(来自CAM::PDF

$pdf->getPageContent(1);

但其中包含文字信息。

1 个答案:

答案 0 :(得分:1)

这些模块可以实现pdf中的提取文本

来自CPAN

my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(1);
print CAM::PDF::PageText->render($pageone_tree);

此模块尝试从PDF页面中提取顺序文本。这不是一个强大的过程,因为PDF文本以图形方式按任意顺序排列。该模块使用一些启发式方法来尝试猜测其他文本旁边的文本,但可能会被下标,非水平文本,字体更改,表单字段等轻易欺骗。

除了这些免责声明之外,它对于从简单的PDF文件中快速转储文本非常有用。

更新

http://search.cpan.org/dist/CAM-PDF/lib/CAM/PDF.pm

中详细阅读abit

但有一些方法,如:

$self->getFontNames(pagenum)

其他可能有用的人。