从pdf中提取文本的最佳perl模块是什么?

时间:2011-01-19 00:43:38

标签: perl pdf text extraction

从pdf中提取文本的最佳方法是什么?

1 个答案:

答案 0 :(得分:7)

CAM::PDF模块对于提取文本和维护文档中的来源信息非常有用。它安装了/usr/local/bin/getpdftext.pl,它演示了简单的提取。但是,CAM :: PDF只能读取完全有效的PDF。

如果您正在处理格式错误的PDF,则可能需要更宽松的解析器,例如pdftotext。它将foo.pdf转储到foo.txt,然后您可以将其读入Perl。