Question

关于从PDF中提取标题（使用其元数据）似乎有很多问题。但是，大多数标题似乎不存在于元数据中。我在使用http://pybrary.net/pyPdf/pythondoc-pyPdf.pdf.html时发现了这一点。

无论如何实际上从pdf中检索文本标题？我试图导出到文本文件然后搜索，但没有一致的格式。有没有办法将pdf导出到具有格式的文档，然后检查字体大小＆gt; = 14？

Answer 1

这是一个非常好的问题。创建PDF的应用程序似乎对可用的元数据字段没有任何用处。

以 pdflatex 为例：即使设置了 \ title {...} 和 \ author {...} 在序言中，此信息未反映在元数据中。在快速搜索之后，解决方案似乎是在序言中引入一个块，该块只能由 pdflatex [1]读取：

\pdfinfo
{
  /Title{...}
  /Author{...}
  ...
}

...然后将其放在PDF的相关元数据字段中。奇怪的是，这是必要的。

我不能说像Word或Writer这样的文字处理器。有人假设这样的元数据字段必须由用户手动设置。

如果您的PDF不是由您生成的，也许启发式方法是解决问题的唯一方法。 [2]似乎它做了类似于你想要的东西，但我想这取决于PDF的发布情况 - 这个工具似乎是以科学为导向的。

我希望这至少可以提供一些帮助。