我目前正在构建一个文档共享平台,为了吸引尽可能多的用户,我想在我的平台上添加10 000个文档。这些文件只是PDF文件。我正在使用Symfony2,但我想这对问题没有太大影响:如何从这些文档中提取我需要的元数据(例如,标题,描述的前100个单词)并将其插入到我的数据库(在我的情况下,将它水合成我的实体,但我知道那部分)。
我认为爬虫是我正在寻找的,但我不知道在哪里可以找到这样的东西,也不知道如何让它起作用。
提前致谢!
答案 0 :(得分:1)
因为你没有真正的问题:
当你完成了所有这些,然后遇到了一个特定的问题:问一个真正的问题;)