我正在开展一个项目SIGGRAPH Image Wall。
我的第一个挑战是弄清楚如何在PDF, SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)中提取每个页面的标题。 本PDF是每篇论文第一页的汇编。 因此,每页有一个纸质标题,略有不同 传统的学者论文。 有没有人对此有任何想法?
答案 0 :(得分:1)
我认为你可以使用任何一种文本提取方法来实现这一点,但我会提醒说,达到100%的准确率会很棘手......
一些可能使用的工具:
您的源页面看起来相当一致 - 我觉得您可以对页面上的内容以及内容的外观做出一些明智的猜测。我试试这个:
如果标题字体不同,您需要猜测每个页面的标题字体是什么,并将其与作者姓名(您应该从页面顶部获得的唯一其他内容)区分开来,您可以简单地做通过比较字体大小。