我使用以下命令裁剪了PDF。
gswin32c.exe ^
-o cropped.pdf ^
-sDEVICE=pdfwrite ^
-c "[/CropBox [64 418 348 803] /PAGE pdfmark" ^
-f original.pdf
PDF正在被裁剪。我使用以下命令从裁剪的PDF中提取文本。
gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNODISPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYSTEMDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=1 ^
-dLastPage=1 ^
cropped.pdf ^
-> c:\output.txt ^
-dQUIET
输出包含原始PDF的文本,而不是裁剪的PDF。
有人可以帮助仅从裁剪的PDF中提取文本。
由于 Nazeer
答案 0 :(得分:2)
你得到的结果正是预期的结果。
裁剪的PDF页面 NOT 意味着:切断裁剪区域周围的所有内容并将其删除。
裁剪意味着:只显示裁剪区域内的内容(并缩放),并隐藏周围的内容。
因此,当您将此类页面转换为文本时,您还将获得隐藏的内容。
答案 1 :(得分:0)
如果您尝试使用其他方法将cropped.pdf转换为文本,您可能会更幸运:
在Acrobat / Adobe Reader中打开它。
点击'文件 - >另存为文字...'