Pdf真正的裁剪

时间:2014-11-03 15:24:13

标签: pdf crop layer

我需要使用linux shell裁剪pdf文档,然后在该裁剪的pdf中提取文本。

我的想法是使用pdfcrop linux工具裁剪pdf,然后使用txt2pdf文本提取工具在裁剪区域中提取文本,但我意识到我正在思考图像,当我尝试这样做的结果与原始的,而不是裁剪的pdf相同。

我猜这是一个层问题。由于pdf格式适用于图层,如果我不“裁剪”所有图层,结果将包括所有图层中的所有信息,这是我不想要的。

如果有人知道如何在pdf中做一个真正的“全层裁剪”,我会非常感激。如果它可能或我应该开始考虑另一个解决方案。

TY

1 个答案:

答案 0 :(得分:1)

它不是图层,裁剪PDF的事实通常只涉及设置CropBox,它根本不会改变PDF的实际内容(除了CropBox)。大多数文本提取代码将忽略CropBox并提取所有文本....

您可以通过一些努力,使用Ghostscript生成真正裁剪的PDF(虽然请注意仍会包含部分裁剪的字形),然后从中提取文本。但那很难看。

或者Ghostscript和MuPDF都可以提取带有坐标信息的文本,这可能足以满足您的需求。