使用Ghostscript从PDF中提取文本

时间:2016-12-28 19:50:36

标签: pdf text ghostscript

我正在使用Ghostscript 9.20从仅包含两行文本的PDF文档中提取文本:

Hello world…
A beautiful day!

应用的代码是:

gswin32c -sDEVICE=txtwrite -o output.txt input.pdf

然而,输出是:

  䠀攀氀氀漀 眀漀爀氀搀☠ 
  䄀 戀攀愀甀琀椀昀甀氀 搀愀礀℀ 

发生了什么以及如何解决?

1 个答案:

答案 0 :(得分:3)

9.20版本中有一个错误影响了某些类型的文本提取。不是全部,它取决于输入,并且由于您没有提供,因此无法判断您的特定输入文件是否受到影响。

要解决此问题,您可以:

  1. 从我们的Git存储库克隆Ghostscript,构建并测试最新代码。
  2. 等到下一个版本(3月)并测试一下。
  3. 打开错误报告,有人会查看它。虽然这实际上对你没有帮助。如果已经修复了,那么你必须选择1或2.如果还没有修复那么你需要等到它然后按照1或2,但至少你会有帮助改进了产品。