关于从PDF中提取标题(使用其元数据)似乎有很多问题。但是,大多数标题似乎不存在于元数据中。我在使用http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html时发现了这一点。
无论如何实际上从pdf中检索文本标题?我试图导出到文本文件然后搜索,但没有一致的格式。有没有办法将pdf导出到具有格式的文档,然后检查字体大小> = 14?
答案 0 :(得分:0)
这是一个非常好的问题。创建PDF的应用程序似乎对可用的元数据字段没有任何用处。
以 pdflatex 为例:即使设置了 \ title {...} 和 \ author {...} 在序言中,此信息未反映在元数据中。在快速搜索之后,解决方案似乎是在序言中引入一个块,该块只能由 pdflatex [1]读取:
\pdfinfo
{
/Title{...}
/Author{...}
...
}
...然后将其放在PDF的相关元数据字段中。奇怪的是,这是必要的。
我不能说像Word或Writer这样的文字处理器。有人假设这样的元数据字段必须由用户手动设置。
如果您的PDF不是由您生成的,也许启发式方法是解决问题的唯一方法。 [2]似乎它做了类似于你想要的东西,但我想这取决于PDF的发布情况 - 这个工具似乎是以科学为导向的。
我希望这至少可以提供一些帮助。
[1] http://wlug.org.nz/PdfLatexNotes [2] http://www.molspaces.com/d_cb2bib-metadata.php