我正在尝试使用Mac上的ghostscript将带有西班牙文本的pdf文件转换为.txt文件。一切都运作良好,除了西班牙语特定的字符(例如í,ó)没有正确显示(例如í显示为“¿≠”)。有谁知道如何解决这个问题?
这是一个工作示例。将以下文本放在example.pdf文件中:
Esteplanetaademásstateeldíamáslargodel sistema solar:243díasterrestres,y su movimientoesdextrógiro,es decir,gira en el sentido de las manecillas del reloj,contrario al movimiento de los otros planetas。来自ello,enuníívenusianoel Sol sale el el oeste y se oculta por el este。
然后运行
gs -sDEVICE=txtwrite -o output.txt example.pdf
答案 0 :(得分:0)
&#39>示例'完全不够,因为您还没有提供实际的PDF文件。如果我自己创建PDF文件,它将与您的文件不同。特别是它可能包含一个ToUnicode CMap,你可能不会。
在没有ToUnicode CMap的情况下,任何消费者都必须猜测字符代码代表什么(它们可能根本不代表任何语言编码),因此您将无法得到您期望的文本。
因此,提供实际的示例文件非常重要,而不是创建一个文件的说明。
你还没有说过你正在使用哪个版本的Ghostscript。