应用错误收集

从PDF的每个页面中提取标题？

时间：2013-08-06 02:57:17

标签： pdf

我正在开展一个项目SIGGRAPH Image Wall。

我的第一个挑战是弄清楚如何在PDF, SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)中提取每个页面的标题。本PDF是每篇论文第一页的汇编。因此，每页有一个纸质标题，略有不同传统的学者论文。有没有人对此有任何想法？

1 个答案:

答案 0 :(得分：1)

我认为你可以使用任何一种文本提取方法来实现这一点，但我会提醒说，达到100％的准确率会很棘手......

一些可能使用的工具：

pdftotext或pdf2txt - 简单易用的跨平台提取实用程序。
PDFNet - 强大的SDK，可用于挖掘PDF并精确提取所需数据。
Perl modules: PDF::API2, CAM::PDF - 我是一个Perl人，所以我会走这条路，但我确信类似的库存在于Python，Ruby等中。

您的源页面看起来相当一致 - 我觉得您可以对页面上的内容以及内容的外观做出一些明智的猜测。我试试这个：

手动检查PDF以找出标题字体名称和大小。
提取页面顶部的文本信息（类似于前150个像素）。确保提取字体信息。
这应该可以获得所有标题文本以及一些作者姓名。解析此数据（在您编写的脚本中，或在pdftotext的XML输出文件中等），只保留与您的标题字体信息匹配的单词。

如果标题字体不同，您需要猜测每个页面的标题字体是什么，并将其与作者姓名（您应该从页面顶部获得的唯一其他内容）区分开来，您可以简单地做通过比较字体大小。