Question

我正在尝试使用Mac上的ghostscript将带有西班牙文本的pdf文件转换为.txt文件。一切都运作良好，除了西班牙语特定的字符（例如í，ó）没有正确显示（例如í显示为“¿≠”）。有谁知道如何解决这个问题？

这是一个工作示例。将以下文本放在example.pdf文件中：

Esteplanetaademásstateeldíamáslargodel sistema solar：243díasterrestres，y su movimientoesdextrógiro，es decir，gira en el sentido de las manecillas del reloj，contrario al movimiento de los otros planetas。来自ello，enuníívenusianoel Sol sale el el oeste y se oculta por el este。

然后运行

gs -sDEVICE=txtwrite -o output.txt example.pdf

Answer 1

＆＃39>示例＆＃39;完全不够，因为您还没有提供实际的PDF文件。如果我自己创建PDF文件，它将与您的文件不同。特别是它可能包含一个ToUnicode CMap，你可能不会。

在没有ToUnicode CMap的情况下，任何消费者都必须猜测字符代码代表什么（它们可能根本不代表任何语言编码），因此您将无法得到您期望的文本。

因此，提供实际的示例文件非常重要，而不是创建一个文件的说明。

你还没有说过你正在使用哪个版本的Ghostscript。

使用ghostscript将.pdf转换为.txt时，未正确显示西班牙语字符

1 个答案: