如何使用PHP 从中提取文本?
(我不能使用其他工具,我没有root访问权限)
我发现一些函数适用于纯文本,但它们不能很好地处理Unicode字符:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
答案 0 :(得分:48)
下载 class.pdf2text.php @ https://pastebin.com/dvwySU1a(2014年4月5日更新)或http://www.phpclasses.org/browse/file/31030.html(需要注册)
代码:
include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf');
$a->decodePDF();
echo $a->output();
该课程不适用于我测试的所有pdf,尝试一下,你可能会很幸运:))
如果上述操作无效,请尝试http://pdfparser.org/
Project Home( SSL证书问题)
答案 1 :(得分:11)
我知道这个话题已经很老了,但这个需求仍然存在。 我阅读了许多文档,论坛和脚本,并构建了一个支持压缩和未压缩pdf的新的高级文档:
https://gist.github.com/smalot/6183152
希望它能帮助人们