Question

如何使用PHP 从中提取文本？

（我不能使用其他工具，我没有root访问权限）

我发现一些函数适用于纯文本，但它们不能很好地处理Unicode字符：

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

Answer 1

下载 class.pdf2text.php @ https://pastebin.com/dvwySU1a（2014年4月5日更新）或http://www.phpclasses.org/browse/file/31030.html（需要注册）

代码：

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output();

该课程不适用于我测试的所有pdf，尝试一下，你可能会很幸运:)）

如果上述操作无效，请尝试http://pdfparser.org/

Project Home（ SSL证书问题）

Answer 2

我知道这个话题已经很老了，但这个需求仍然存在。我阅读了许多文档，论坛和脚本，并构建了一个支持压缩和未压缩pdf的新的高级文档：

https://gist.github.com/smalot/6183152

希望它能帮助人们

如何从PDF文档中提取文本？

2 个答案: