Question

我正在尝试开发一种搜索工具，用于搜索所有PDF中的单词，结果将列出包含单词或术语的所有PDF。我是一个完全的初学者，不知道它是怎么回事。我尝试通过互联网搜索并得到一个来源，即https://github.com/skfaisal93/AnyWhereInFiles

上面的项目链接可以正常使用txt，css和php文件但不能使用pdf扩展。

任何想法或解决方案都会很好。提前谢谢。

Answer 1

您可以使用PDF2Text Class将pdf转换为文本，然后搜索有关您的文字的文字。我强烈建议您在将pdf存储到系统中时保持更好的性能，将数据库保存在2个表中，1表示pdfs名称，其他（1-N）表示文本在未来搜索中。 TL; DR你需要它来OCR /解压缩文件，存储他并使用db或backend中的一些命令进行全文搜索。

使用PDF2Text类，您可以：

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('youfile.pdf'); 
$a->decodePDF();
//use the db you want
sql = "insert into TABLEPDF (name, content) VALUES ('youfile', $a->output())";

之后，当用户将关键字搜索到您的输入时，它只是搜索您的数据库，搜索后列出（如果num_rows＆gt; 0）包含该关键字的pdf：

$query = "SELECT name FROM TABLEPDF where content like '%$keyword%';

您也可以使用OCR类，改进系统接受的文件： http://phpocr.sourceforge.net/ https://github.com/thiagoalessio/tesseract-ocr-for-php

显示包含特定关键字的pdf文件

1 个答案: