从PDF中提取实际的文本标题

时间:2011-07-18 10:46:13

标签: pdf title extraction

关于从PDF中提取标题(使用其元数据)似乎有很多问题。但是,大多数标题似乎不存在于元数据中。我在使用http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html时发现了这一点。

无论如何实际上从pdf中检索文本标题?我试图导出到文本文件然后搜索,但没有一致的格式。有没有办法将pdf导出到具有格式的文档,然后检查字体大小> = 14?

1 个答案:

答案 0 :(得分:0)

这是一个非常好的问题。创建PDF的应用程序似乎对可用的元数据字段没有任何用处。

pdflatex 为例:即使设置了 \ title {...} \ author {...} 在序言中,此信息未反映在元数据中。在快速搜索之后,解决方案似乎是在序言中引入一个块,该块只能由 pdflatex [1]读取:

\pdfinfo
{
  /Title{...}
  /Author{...}
  ...
}

...然后将其放在PDF的相关元数据字段中。奇怪的是,这是必要的。

我不能说像Word或Writer这样的文字处理器。有人假设这样的元数据字段必须由用户手动设置。

如果您的PDF不是由您生成的,也许启发式方法是解决问题的唯一方法。 [2]似乎它做了类似于你想要的东西,但我想这取决于PDF的发布情况 - 这个工具似乎是以科学为导向的。

我希望这至少可以提供一些帮助。

[1] http://wlug.org.nz/PdfLatexNotes [2] http://www.molspaces.com/d_cb2bib-metadata.php