Question

我使用以下命令裁剪了PDF。

gswin32c.exe ^
-o cropped.pdf ^
-sDEVICE=pdfwrite ^
-c "[/CropBox [64 418 348 803] /PAGE pdfmark" ^
-f original.pdf

PDF正在被裁剪。我使用以下命令从裁剪的PDF中提取文本。

gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNODISPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYSTEMDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=1 ^
-dLastPage=1 ^
cropped.pdf ^
-> c:\output.txt ^
-dQUIET

输出包含原始PDF的文本，而不是裁剪的PDF。

有人可以帮助仅从裁剪的PDF中提取文本。

由于 Nazeer

Answer 1

你得到的结果正是预期的结果。

裁剪的PDF页面 NOT 意味着：切断裁剪区域周围的所有内容并将其删除。
裁剪意味着：只显示裁剪区域内的内容（并缩放），并隐藏周围的内容。

因此，当您将此类页面转换为文本时，您还将获得隐藏的内容。

Answer 2

如果您尝试使用其他方法将cropped.pdf转换为文本，您可能会更幸运：

在Acrobat / Adobe Reader中打开它。

点击'文件 - ＆gt;另存为文字...'

从PDF裁剪和提取文本

2 个答案: