标签: perl cpan
我想解析一个pdf文件并从中提取一些内容。任何人都可以列出任何特定的perl模块吗?
感谢。
答案 0 :(得分:2)
您可以尝试查看
CAM::PDF
或
PDF::API3
如果您尝试解析文档中的文本,则可能不实用。来自CAM :: PDF ::文本
此模块尝试从PDF页面中提取顺序文本。这个 不是一个强大的过程,因为PDF文本是图形化的 任意顺序。该模块使用一些启发式试图猜测 什么文字旁边的其他文字,但可能很容易被愚弄, 比如,下标,非横向文本,字体更改,表单字段 等