如何从10 000个PDF文档中提取元数据并将其存储在我的数据库中?

时间:2013-07-19 08:56:30

标签: php database symfony web-crawler

我目前正在构建一个文档共享平台,为了吸引尽可能多的用户,我想在我的平台上添加10 000个文档。这些文件只是PDF文件。我正在使用Symfony2,但我想这对问题没有太大影响:如何从这些文档中提取我需要的元数据(例如,标题,描述的前100个单词)并将其插入到我的数据库(在我的情况下,将它水合成我的实体,但我知道那部分)。

我认为爬虫是我正在寻找的,但我不知道在哪里可以找到这样的东西,也不知道如何让它起作用。

提前致谢!

1 个答案:

答案 0 :(得分:1)

因为你没有真正的问题:

  • 定义允许的文档类型/格式
  • google如何使用php阅读每种文档类型(php-functions,libraries,code-snippets)
  • 确定上传文件的文件类型
  • 使用googled funcs,libs等读取php中的文件。

当你完成了所有这些,然后遇到了一个特定的问题:问一个真正的问题;)