Ghostscript在阅读PDF时会破坏变音符号

时间:2017-05-22 15:01:29

标签: pdf ghostscript

我在Linux上使用它

gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -o res.txt 1.pdf

从大约数百个PDF中提取文本时,变音符号和其他特殊字符(最多为ASCII 255)会被破坏。有什么想法吗?

cf https://archive.org/download/bnmm_gmx_1/1.pdf(包含两个“ä”)

screenshot of mangled text fragment

部分翻译表:(土耳其语字母的最后一个和所有其他特殊字母使用不可打印的字符进行损坏,否则我可以帮助自己)

ä = À¤
é = À©
ç = À§

screenshot of mangled text fragment

screenshot of geany text editor

1 个答案:

答案 0 :(得分:1)

看起来它应该工作,因为字体有一个ToUnicode CMap。我建议你打开一个错误报告。

注意,您没有使用ASCII,嵌入和子集字体是CIDFonts,并且正在使用的CMap创建2字节字符代码(尽管可笑的是所有高字节都是0)。但是,例如,空间实际上编码为字符代码0x0003,“0”代码为0x0013等。

顺便说一下,一个简单的例子很有用,很难从这个文件中的常规文本中挑选出带重音的字形。