解析书籍或文章pdf以获取元数据

时间:2016-06-30 13:33:16

标签: pdf metadata

我想从pdf文件中提取元数据(标题,作者,出版日期等),我知道它们是书籍或文章。是否有书籍和文章的模板?在解析时,我怎么知道我发现了正确的东西?我可以使用哪些工具或库?

我的问题部分存在一个问题:Libraries for parsing PDF, PostScript and/or DjVu

1 个答案:

答案 0 :(得分:0)

据我所知,现在有一个PDF书籍布局的标准,布局总是特定于特定的出版商。但我认为如果你想自动分类以PDF格式存储的书籍,你可以考虑以下场景:

  • 选择2到5家主要出版商(80%来自80/20 Paretto原则),并查看PDF书籍的第一页,了解他们的特定页眉或页脚,例如"由PublisherName"
  • 将源PDF的结构与您在上一步中创建的模式进行比较。您可以使用低级库(如iTextSharp)或高级库(如商业PDF Extractor SDK)提取可视化布局的结构,这些库提供按列/行访问的API。
  • 通过这些过滤器整理输入书籍,以找出哪个出版商制作了这本书。
  • 将所选发布商的预编码提取应用于图书以及此发布商或发布商使用的版面。

通过这种方式,您可以尝试覆盖主要发布商,并让非主要发布商进行手动分类。另请注意,PDF文件包含ProducerAuthorTitle字段作为标准标题,您可以将其用于有关图书的其他信息来源。

披露:我与PDF Extractor SDK制造商ByteScout和免费PDF Multitool

有关