用于解析PDF文件的CPAN Perl模块

时间:2012-03-14 09:01:06

标签: perl cpan

我想解析一个pdf文件并从中提取一些内容。任何人都可以列出任何特定的perl模块吗?

感谢。

1 个答案:

答案 0 :(得分:2)

您可以尝试查看

CAM::PDF

PDF::API3

如果您尝试解析文档中的文本,则可能不实用。来自CAM :: PDF ::文本

  

此模块尝试从PDF页面中提取顺序文本。这个   不是一个强大的过程,因为PDF文本是图形化的   任意顺序。该模块使用一些启发式试图猜测   什么文字旁边的其他文字,但可能很容易被愚弄,   比如,下标,非横向文本,字体更改,表单字段   等