我正在尝试开发一种搜索工具,用于搜索所有PDF中的单词,结果将列出包含单词或术语的所有PDF。我是一个完全的初学者,不知道它是怎么回事。我尝试通过互联网搜索并得到一个来源,即https://github.com/skfaisal93/AnyWhereInFiles
上面的项目链接可以正常使用txt,css和php文件但不能使用pdf扩展。
任何想法或解决方案都会很好。提前谢谢。
答案 0 :(得分:1)
您可以使用PDF2Text Class将pdf转换为文本,然后搜索有关您的文字的文字。我强烈建议您在将pdf存储到系统中时保持更好的性能,将数据库保存在2个表中,1表示pdfs名称,其他(1-N)表示文本在未来搜索中。 TL; DR你需要它来OCR /解压缩文件,存储他并使用db或backend中的一些命令进行全文搜索。
使用PDF2Text类,您可以:
include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('youfile.pdf');
$a->decodePDF();
//use the db you want
sql = "insert into TABLEPDF (name, content) VALUES ('youfile', $a->output())";
之后,当用户将关键字搜索到您的输入时,它只是搜索您的数据库,搜索后列出(如果num_rows> 0)包含该关键字的pdf:
$query = "SELECT name FROM TABLEPDF where content like '%$keyword%';
您也可以使用OCR类,改进系统接受的文件: http://phpocr.sourceforge.net/ https://github.com/thiagoalessio/tesseract-ocr-for-php