Question

如何使用PDF::API2或CAM::PDF获取文字属性？我需要字体大小和样式信息。

类似（来自CAM::PDF）

$pdf->getPageContent(1);

但其中包含文字信息。

Answer 1

这些模块可以实现pdf中的提取文本

来自CPAN

my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(1);
print CAM::PDF::PageText->render($pageone_tree);

此模块尝试从PDF页面中提取顺序文本。这不是一个强大的过程，因为PDF文本以图形方式按任意顺序排列。该模块使用一些启发式方法来尝试猜测其他文本旁边的文本，但可能会被下标，非水平文本，字体更改，表单字段等轻易欺骗。

除了这些免责声明之外，它对于从简单的PDF文件中快速转储文本非常有用。

更新

中详细阅读abit

但有一些方法，如：

$self->getFontNames(pagenum)

其他可能有用的人。