在PHP和MySQL中组织和管理数千个PDF文件

时间:2014-10-09 08:54:12

标签: php mysql

我正在帮助我的一位前任老师建立一个网站,在那里他可以与同事交换课程文件(考试,学生练习单等)。他亲自创建了数千个PDF文件,现在可供其他教师使用以供参考/使用。

一个主要功能是搜索功能,允许用户搜索特定文件。由于文档太多,我们需要提供一种有效的方法来搜索所有文档。

我想到了几种方法:

a)手动分配每个PDF-File 5-10关键字,并将其与文件的元数据一起保存在MySQL数据库中。用户将直接搜索这些关键字,而不是PDF的内容。

b)使用某种逻辑以编程方式提取10-20个最常用的关键字,并将这些关键字与文件的元数据一起保存。在我看来,这比a)更好。

c)使用file_get_contents提取大部分/全部PDF文件文本内容,并将其与文件的元数据一起保存在MySQL数据库中。用户现在能够对实际文本内容本身执行搜索。在我看来,这将是最好的方法。

d)我没有提到的任何其他方法?

我不确定这些方法的可行性(即将c)消耗服务器端的许多资源?实际上,我们将使用提取的文本内容中的每几百个单词筛选数千个数据库行。

我希望你能给我一些关于我是否走在正确轨道上的指示,你认为最好的方法是什么。非常感谢提前!

1 个答案:

答案 0 :(得分:1)

方法(a)是你的答案(在我看来)。搜索所有文件内容在实践中是不可行的。提取10-20个最频繁的单词只会误导您的搜索,因为无法保证这些单词在描述他们来自的文档时是有意义的。提取大部分文本可能很有用,但搜索速度会慢很多,并且没有人说是否会使搜索更好或更差,而不是带有关键字的搜索。

除了一切,这主要是基于意见的。没有正确或错误的方法去处理它(a)对我来说是最有意义的。