php - 如何从10 000个PDF文档中提取元数据并将其存储在我的数据库中？

如何从10 000个PDF文档中提取元数据并将其存储在我的数据库中？

时间：2013-07-19 08:56:30

标签： php database symfony web-crawler

我目前正在构建一个文档共享平台，为了吸引尽可能多的用户，我想在我的平台上添加10 000个文档。这些文件只是PDF文件。我正在使用Symfony2，但我想这对问题没有太大影响：如何从这些文档中提取我需要的元数据（例如，标题，描述的前100个单词）并将其插入到我的数据库（在我的情况下，将它水合成我的实体，但我知道那部分）。

我认为爬虫是我正在寻找的，但我不知道在哪里可以找到这样的东西，也不知道如何让它起作用。

提前致谢！

1 个答案:

答案 0 :(得分：1)

因为你没有真正的问题：

定义允许的文档类型/格式
google如何使用php阅读每种文档类型（php-functions，libraries，code-snippets）
确定上传文件的文件类型
使用googled funcs，libs等读取php中的文件。

当你完成了所有这些，然后遇到了一个特定的问题：问一个真正的问题;）