从PDF裁剪和提取文本

时间:2011-06-01 01:26:48

标签: pdf text extract crop

我使用以下命令裁剪了PDF。

gswin32c.exe ^
-o cropped.pdf ^
-sDEVICE=pdfwrite ^
-c "[/CropBox [64 418 348 803] /PAGE pdfmark" ^
-f original.pdf

PDF正在被裁剪。我使用以下命令从裁剪的PDF中提取文本。

gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNODISPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYSTEMDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=1 ^
-dLastPage=1 ^
cropped.pdf ^
-> c:\output.txt ^
-dQUIET 

输出包含原始PDF的文本,而不是裁剪的PDF。

有人可以帮助仅从裁剪的PDF中提取文本。

由于 Nazeer

2 个答案:

答案 0 :(得分:2)

你得到的结果正是预期的结果。

  • 裁剪的PDF页面 NOT 意味着:切断裁剪区域周围的所有内容并将其删除。

  • 裁剪意味着:只显示裁剪区域内的内容(并缩放),并隐藏周围的内容。

因此,当您将此类页面转换为文本时,您还将获得隐藏的内容。

答案 1 :(得分:0)

如果您尝试使用其他方法将cropped.pdf转换为文本,您可能会更幸运:

  

在Acrobat / Adob​​e Reader中打开它。

     

点击'文件 - >另存为文字...'