显示包含特定关键字的pdf文件

时间:2017-05-25 09:39:07

标签: php file pdf search full-text-search

我正在尝试开发一种搜索工具,用于搜索所有PDF中的单词,结果将列出包含单词或术语的所有PDF。我是一个完全的初学者,不知道它是怎么回事。我尝试通过互联网搜索并得到一个来源,即https://github.com/skfaisal93/AnyWhereInFiles

上面的项目链接可以正常使用txt,css和php文件但不能使用pdf扩展。

任何想法或解决方案都会很好。提前谢谢。

1 个答案:

答案 0 :(得分:1)

您可以使用PDF2Text Class将pdf转换为文本,然后搜索有关您的文字的文字。我强烈建议您在将pdf存储到系统中时保持更好的性能,将数据库保存在2个表中,1表示pdfs名称,其他(1-N)表示文本在未来搜索中。 TL; DR你需要它来OCR /解压缩文件,存储他并使用db或backend中的一些命令进行全文搜索。

使用PDF2Text类,您可以:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('youfile.pdf'); 
$a->decodePDF();
//use the db you want
sql = "insert into TABLEPDF (name, content) VALUES ('youfile', $a->output())"; 

之后,当用户将关键字搜索到您的输入时,它只是搜索您的数据库,搜索后列出(如果num_rows> 0)包含该关键字的pdf:

$query = "SELECT name FROM TABLEPDF where content like '%$keyword%';

您也可以使用OCR类,改进系统接受的文件: http://phpocr.sourceforge.net/ https://github.com/thiagoalessio/tesseract-ocr-for-php