我想从pdf文件中提取元数据(标题,作者,出版日期等),我知道它们是书籍或文章。是否有书籍和文章的模板?在解析时,我怎么知道我发现了正确的东西?我可以使用哪些工具或库?
我的问题部分存在一个问题:Libraries for parsing PDF, PostScript and/or DjVu
答案 0 :(得分:0)
据我所知,现在有一个PDF书籍布局的标准,布局总是特定于特定的出版商。但我认为如果你想自动分类以PDF格式存储的书籍,你可以考虑以下场景:
通过这种方式,您可以尝试覆盖主要发布商,并让非主要发布商进行手动分类。另请注意,PDF文件包含Producer
,Author
,Title
字段作为标准标题,您可以将其用于有关图书的其他信息来源。
披露:我与PDF Extractor SDK制造商ByteScout和免费PDF Multitool
有关