应用错误收集

时间：2014-11-03 15:24:13

标签： pdf crop layer

我需要使用linux shell裁剪pdf文档，然后在该裁剪的pdf中提取文本。

我的想法是使用pdfcrop linux工具裁剪pdf，然后使用txt2pdf文本提取工具在裁剪区域中提取文本，但我意识到我正在思考图像，当我尝试这样做的结果与原始的，而不是裁剪的pdf相同。

我猜这是一个层问题。由于pdf格式适用于图层，如果我不“裁剪”所有图层，结果将包括所有图层中的所有信息，这是我不想要的。

如果有人知道如何在pdf中做一个真正的“全层裁剪”，我会非常感激。如果它可能或我应该开始考虑另一个解决方案。

答案 0 :(得分：1)

它不是图层，裁剪PDF的事实通常只涉及设置CropBox，它根本不会改变PDF的实际内容（除了CropBox）。大多数文本提取代码将忽略CropBox并提取所有文本....

您可以通过一些努力，使用Ghostscript生成真正裁剪的PDF（虽然请注意仍会包含部分裁剪的字形），然后从中提取文本。但那很难看。

或者Ghostscript和MuPDF都可以提取带有坐标信息的文本，这可能足以满足您的需求。