如何正确刮取报纸PDF

时间:2016-06-14 22:48:09

标签: python pdf pdfbox scrape pdftotext

我开始认为做我想做的事是不可能的,但我只是想在放弃之前我会问这里。

我有近200份报纸的档案PDF,我想分析一下。但是我想特别在字母部分进行此分析,但是根据广告的布局和转换方法(无论是pdfbox还是pdftotext),该部分没有真正的开头或结尾。我可以准确地创建一个正则表达式搜索。

有谁能想到办法做这样的事情?我已经看了一段时间,似乎唯一可靠的方法是手动筛选每个pdf。

1 个答案:

答案 0 :(得分:1)

我想我会写一些关于我做了什么才能让这个工作:

根据@TilmanHausherr的说法,我即将手动启动,单独裁剪每个页面,然后在这些裁剪页面上进行文本提取。

然而,我认为通过摆脱完全不必要的页面(99%),尽可能减少手动裁剪的数量。

所以即使我的半自动选择不是100%准确 - 他们至少会为我减少手动工作,这对任何一种方式都有帮助。所以我遵循了这个过程:

  1. 使用Acrobat,我运行javascript search将具有特定关键字的所有网页解压缩到新文档。这个问题必须是一个单词关键词,但我发现所有字母页面上都出现了一个非常独特的单词“disclaimer”。即使它确实抓住了另一页 - 但这并不重要,因为我想做的就是减少最终的手工作业。

  2. 然后我想让页面尽可能简单地手动裁剪,所以知道所有图像都无关紧要,我在14天的试用中使用了程序pdftoolbox来使用这个疯狂的功能它会自动将文本图像和矢量分割成不同的层,然后可以将其删除或隐藏。

  3. 这是通过转到修正菜单,搜索create different layers for vectors..选项并单击修复来完成的。一旦完成 - 转到主菜单下的explore layers选项并删除除文本图层之外的所有内容。正如你所看到的那样,在删除任何额外垃圾方面非常有效,几乎就像报纸上的adblock :) enter image description here

  4. 仍然有一些剩余的垃圾,但删除所有图像后我只需要浏览几页并检查acrobat编辑器中没有不相关的文本。唯一的手工工作还有待完成。

  5. 我认为当我尝试自动化整个过程时,我完全陷入困境是非常有趣的。但是,当我试图减少尽可能多的手动工作时,无论如何我已经自动完成了99%的过程。

    当我试图将其自动化时,猜测我是在下意识地制作了 Perfect solution fallacy

    ¯\ _(ツ)_ /¯