如何使用php / html搜索pdf内部?

时间:2013-02-27 13:20:01

标签: php html search pdf

大家好,我想制作一个可以搜索“很多”pdf文件的搜索引擎。我想搜索pdf文件中的内容,而不仅仅是标题。此应用程序用于存档我的文件,因此我可以轻松搜索匹配的单词。例如在谷歌中,你可以使用“filetype:.pdf home”,结果将显示包含word home的所有pdf文件。那么你可以帮助我使用这个基于Web的应用程序吗?

1 个答案:

答案 0 :(得分:0)

如果你的应用程序在linux上运行并且你可以运行系统命令,你可以尝试使用'pdftotext'命令将pdf文件转换为纯文本,然后将其编入索引。

请记住,文本将按显示顺序而不是语义正确的顺序(两篇专栏文章会给出非常奇怪的结果),因此显示文本将毫无意义,搜索句子可能无法正常工作。