使用ghostscript将.pdf转换为.txt时,未正确显示西班牙语字符

时间:2017-02-17 19:19:39

标签: pdf utf-8 character-encoding ghostscript

我正在尝试使用Mac上的ghostscript将带有西班牙文本的pdf文件转换为.txt文件。一切都运作良好,除了西班牙语特定的字符(例如í,ó)没有正确显示(例如í显示为“¿≠”)。有谁知道如何解决这个问题?

这是一个工作示例。将以下文本放在example.pdf文件中:

Esteplanetaademásstateeldíamáslargodel sistema solar:243díasterrestres,y su movimientoesdextrógiro,es decir,gira en el sentido de las manecillas del reloj,co​​ntrario al movimiento de los otros planetas。来自ello,enuníívenusianoel Sol sale el el oeste y se oculta por el este。

然后运行

gs -sDEVICE=txtwrite -o output.txt example.pdf

1 个答案:

答案 0 :(得分:0)

&#39>示例'完全不够,因为您还没有提供实际的PDF文件。如果我自己创建PDF文件,它将与您的文件不同。特别是它可能包含一个ToUnicode CMap,你可能不会。

在没有ToUnicode CMap的情况下,任何消费者都必须猜测字符代码代表什么(它们可能根本不代表任何语言编码),因此您将无法得到您期望的文本。

因此,提供实际的示例文件非常重要,而不是创建一个文件的说明。

你还没有说过你正在使用哪个版本的Ghostscript。