我正在使用Ghostscript 9.20从仅包含两行文本的PDF文档中提取文本:
Hello world…
A beautiful day!
应用的代码是:
gswin32c -sDEVICE=txtwrite -o output.txt input.pdf
然而,输出是:
䠀攀氀氀漀 眀漀爀氀搀☠
䄀 戀攀愀甀琀椀昀甀氀 搀愀礀℀
发生了什么以及如何解决?
答案 0 :(得分:3)
9.20版本中有一个错误影响了某些类型的文本提取。不是全部,它取决于输入,并且由于您没有提供,因此无法判断您的特定输入文件是否受到影响。
要解决此问题,您可以: