python - 如何正确刮取报纸PDF

我想我会写一些关于我做了什么才能让这个工作：

根据@TilmanHausherr的说法，我即将手动启动，单独裁剪每个页面，然后在这些裁剪页面上进行文本提取。

然而，我认为通过摆脱完全不必要的页面（99％），尽可能减少手动裁剪的数量。

所以即使我的半自动选择不是100％准确 - 他们至少会为我减少手动工作，这对任何一种方式都有帮助。所以我遵循了这个过程：

使用Acrobat，我运行javascript search将具有特定关键字的所有网页解压缩到新文档。这个问题必须是一个单词关键词，但我发现所有字母页面上都出现了一个非常独特的单词“disclaimer”。即使它确实抓住了另一页 - 但这并不重要，因为我想做的就是减少最终的手工作业。
然后我想让页面尽可能简单地手动裁剪，所以知道所有图像都无关紧要，我在14天的试用中使用了程序pdftoolbox来使用这个疯狂的功能它会自动将文本图像和矢量分割成不同的层，然后可以将其删除或隐藏。
这是通过转到修正菜单，搜索create different layers for vectors..选项并单击修复来完成的。一旦完成 - 转到主菜单下的explore layers选项并删除除文本图层之外的所有内容。正如你所看到的那样，在删除任何额外垃圾方面非常有效，几乎就像报纸上的adblock :)
仍然有一些剩余的垃圾，但删除所有图像后我只需要浏览几页并检查acrobat编辑器中没有不相关的文本。唯一的手工工作还有待完成。

我认为当我尝试自动化整个过程时，我完全陷入困境是非常有趣的。但是，当我试图减少尽可能多的手动工作时，无论如何我已经自动完成了99％的过程。

当我试图将其自动化时，猜测我是在下意识地制作了 Perfect solution fallacy 。

¯\ _（ツ）_ /¯