标签: perl pdf text extraction
从pdf中提取文本的最佳方法是什么?
答案 0 :(得分:7)
CAM::PDF模块对于提取文本和维护文档中的来源信息非常有用。它安装了/usr/local/bin/getpdftext.pl,它演示了简单的提取。但是,CAM :: PDF只能读取完全有效的PDF。
如果您正在处理格式错误的PDF,则可能需要更宽松的解析器,例如pdftotext。它将foo.pdf转储到foo.txt,然后您可以将其读入Perl。