Ghostscript无法转换某些PDF

时间:2016-01-15 11:52:20

标签: php linux pdf fonts ghostscript

背景

我一直在使用Ghostscript将PDF转换为PNG和GIF。

我在RHEL6 Unix上通过PHP中的exec命令执行此操作:

exec("/usr/bin/gs -dNOPAUSE -dBATCH -dQUIET -sDEVICE=png256 -sOutputFile=\"".$out."\" ".$in, $return);

$ out和$ in解析到PDF输入和PNG输出的路径。

但是,某些PDF似乎不再转换,产生以下错误:

Error: /invalidaccess in --run--
Operand stack:
--dict:8/17(L)-- F2 85.117 --dict:6/6(L)-- --dict:6/6(L)-- CenturyGothic --dict:11/12(ro)(G)-- --nostringval-- CIDFontObject --dict:6/6(L)-- --dict:6/6(L)-- 14280 --dict:6/6(L)-- --nostringval-- PDFCIDFontName CenturyGothic
Execution stack:
%interp_exit .runexec2 --nostringval-- --nostringval-- --nostringval-- 2 %stopped_push --nostringval-- --nostringval-- --nostringval-- false 1 %stopped_push 1862 1 3 %oparray_pop 1861 1 3 %oparray_pop 1845 1 3 %oparray_pop --nostringval-- --nostringval-- 2 1 2 --nostringval-- %for_pos_int_continue --nostringval-- --nostringval-- --nostringval-- --nostringval-- %array_continue --nostringval-- false 1 %stopped_push --nostringval-- %loop_continue --nostringval-- --nostringval-- --nostringval-- --nostringval-- --nostringval-- --nostringval-- %array_continue --nostringval-- --nostringval-- --nostringval-- --nostringval-- --nostringval--
Dictionary stack:
--dict:1149/1684(ro)(G)-- --dict:1/20(G)-- --dict:75/200(L)-- --dict:75/200(L)-- --dict:106/127(ro)(G)-- --dict:286/300(ro)(G)-- --dict:22/25(L)-- --dict:4/6(L)-- --dict:21/40(L)-- --dict:1/1(ro)(G)--
Current allocation mode is local

我的Ghostscript版本是:

GPL Ghostscript 9.16 (2015-03-30)
Copyright (C) 2015 Artifex Software, Inc.  All rights reserved.
Usage: gs [switches] [file1.ps file2.ps ...]
Most frequently used switches: (you can use # in place of =)
 -dNOPAUSE           no pause after page   | -q       `quiet', fewer messages
 -g<width>x<height>  page size in pixels   | -r<res>  pixels/inch resolution
 -sDEVICE=<devname>  select device         | -dBATCH  exit after last file
 -sOutputFile=<file> select output file: - for stdout, |command for pipe,
                                         embed %d or %ld for page #
Input formats: PostScript PostScriptLevel1 PostScriptLevel2 PostScriptLevel3 PDF
Default output device: bbox
Available devices:
   alc1900 alc2000 alc4000 alc4100 alc8500 alc8600 alc9100 ap3250 appledmp
   atx23 atx24 atx38 bbox bit bitcmyk bitrgb bitrgbtags bj10e bj10v bj10vh
   bj200 bjc600 bjc800 bjc880j bjccmyk bjccolor bjcgray bjcmono bmp16 bmp16m
   bmp256 bmp32b bmpgray bmpmono bmpsep1 bmpsep8 ccr cdeskjet cdj1600 cdj500
   cdj550 cdj670 cdj850 cdj880 cdj890 cdj970 cdjcolor cdjmono cdnj500 cfax
   chp2200 cif cljet5 cljet5c cljet5pr coslw2p coslwxl cp50 declj250 deskjet
   devicen dfaxhigh dfaxlow dj505j djet500 djet500c dl2100 dnj650c epl2050
   epl2050p epl2120 epl2500 epl2750 epl5800 epl5900 epl6100 epl6200 eplcolor
   eplmono eps2write eps9high eps9mid epson epsonc escp escpage faxg3
   faxg32d faxg4 fmlbp fmpr fpng fs600 gdi hl1240 hl1250 hl7x0 hpdj1120c
   hpdj310 hpdj320 hpdj340 hpdj400 hpdj500 hpdj500c hpdj510 hpdj520 hpdj540
   hpdj550c hpdj560c hpdj600 hpdj660c hpdj670c hpdj680c hpdj690c hpdj850c
   hpdj855c hpdj870c hpdj890c hpdjplus hpdjportable ibmpro ijs imagen
   inferno ink_cov inkcov itk24i itk38 iwhi iwlo iwlq jetp3852 jj100 jpeg
   jpegcmyk jpeggray la50 la70 la75 la75plus laserjet lbp310 lbp320 lbp8
   lex2050 lex3200 lex5700 lex7000 lips2p lips3 lips4 lips4v lj250 lj3100sw
   lj4dith lj4dithp lj5gray lj5mono ljet2p ljet3 ljet3d ljet4 ljet4d
   ljet4pjl ljetplus ln03 lp1800 lp1900 lp2000 lp2200 lp2400 lp2500 lp2563
   lp3000c lp7500 lp7700 lp7900 lp8000 lp8000c lp8100 lp8200c lp8300c
   lp8300f lp8400f lp8500c lp8600 lp8600f lp8700 lp8800c lp8900 lp9000b
   lp9000c lp9100 lp9200b lp9200c lp9300 lp9400 lp9500c lp9600 lp9600s
   lp9800c lps4500 lps6500 lq850 lxm3200 lxm5700m m8510 mag16 mag256
   md1xMono md2k md50Eco md50Mono md5k mgr4 mgr8 mgrgray2 mgrgray4 mgrgray8
   mgrmono miff24 mj500c mj6000c mj700v2c mj8000c ml600 necp6 npdl nullpage
   oce9050 oki182 oki4w okiibm oprp opvp paintjet pam pamcmyk32 pamcmyk4 pbm
   pbmraw pcl3 pcx16 pcx24b pcx256 pcx2up pcxcmyk pcxgray pcxmono pdfwrite
   pgm pgmraw pgnm pgnmraw photoex picty180 pj pjetxl pjxl pjxl300 pkm
   pkmraw pksm pksmraw plan plan9bm planc plang plank planm plib plibc plibg
   plibk plibm png16 png16m png256 png48 pngalpha pnggray pngmono pnm pnmraw
   ppm ppmraw pr1000 pr1000_4 pr150 pr201 ps2write psdcmyk psdcmykog psdrgb
   pxlcolor pxlmono r4081 rinkj rpdl samsunggdi sgirgb sj48 spotcmyk st800
   stcolor sunhmono t4693d2 t4693d4 t4693d8 tek4696 tiff12nc tiff24nc
   tiff32nc tiff48nc tiff64nc tiffcrle tiffg3 tiffg32d tiffg4 tiffgray
   tifflzw tiffpack tiffscaled tiffsep tiffsep1 txtwrite uniprint xcf xes
   xpswrite
Search path:
   %rom%Resource/Init/ : %rom%lib/ :
   /usr/local/share/ghostscript/9.16/Resource/Init :
   /usr/local/share/ghostscript/9.16/lib :
   /usr/local/share/ghostscript/9.16/Resource/Font :
   /usr/local/share/ghostscript/fonts :
   /usr/local/share/fonts/default/ghostscript :
   /usr/local/share/fonts/default/Type1 :
   /usr/local/share/fonts/default/TrueType : /usr/lib/DPS/outline/base :
   /usr/openwin/lib/X11/fonts/Type1 : /usr/openwin/lib/X11/fonts/TrueType
Initialization files are compiled into the executable.

经过大量的搜索和调试后,我认为它与我客户提供的原始PDF中嵌入的CID字体有关:

  

名称类型emb sub uni对象ID

     

CenturyGothic TrueType yes no no 11 0

     

CenturyGothic CID TrueType是否是26 0

     

Arial-BoldMT CID TrueType是否是195 0

     

Arial-BoldMT TrueType是否否198 0

     

Arial-Black TrueType是否否586 0

所以,我重新制作了PDF,它就像一个魅力。嵌入字体虽然不同,即使我所做的只是在Illustrator中打开文件并重新保存:

  

名称类型emb sub uni对象ID

     

CDXNGM + CenturyGothic TrueType是是否94 0

     

CDXNGM + Arial-BoldMT TrueType是是否95 0

     

CDXNGM + Arial-Black TrueType是是否96 0

文件

文件失败: https://www.dropbox.com/s/54hbdgtewplkrk0/failing.pdf?dl=0

工作文件: https://www.dropbox.com/s/x9uwbyjytjer1zy/working.pdf?dl=0

问题

  1. 我不确定为什么原始文件没有使用嵌入式CID字体,或者只是忽略它,因为它似乎甚至不需要?

  2. 为什么Ghostscript没有产生字体错误但是出现无效访问错误?

  3. 有没有办法可以在转换之前在PHP中或通过exec剥离CID字体?

  4. 有没有办法让Ghostscript忽略字体问题并尽可能做出最好的拳头?

  5. 我能对ghostscript做些什么导致输出?

  6. 非常感谢任何帮助,谢谢。

1 个答案:

答案 0 :(得分:0)

使用当前源代码,9.18版本 9.16版本(全部源自源代码),您的“失败”文件对我来说效果很好。

这让我怀疑这是一个包装问题。各种Linux发行版自己封装了GS,并且这些包并不总是反映出vanilla代码。打包者有时会添加自己的补丁,或者改变Ghostscript的构建方式。特别是它们通常要求使用系统共享库而不是我们随Ghostscript提供的版本,并且已知它们可以工作。在这种情况下,可能会使用不同版本的FreeType。

我建议您获取Ghostscript源代码,自己构建并测试它。如果这样可行,那么你可以向任何维护Red Hat软件包的人抱怨(但请确保你使用的是最新的软件包,我似乎记得Red Hat通常是最新的并且你正在使用一年+过期的版本。

所以回答你的问题:

  1. 需要所有字体。
  2. Ghostscript正在产生无效访问错误(最有可能),因为它试图改变已被定义为“只读”的字体字典的内容。虽然这是也是字体错误,但你得到的是最低级别的错误。
  3. 剥离字体不是一个好方法。首先是因为生成的图像将具有替换字体,这通常是不正确的,其次是因为它很难做到。
  4. 对于PDF输入,如果Ghostscript可以忽略错误并继续,它通常会。这是一个致命的错误。
  5. 是的,从源代码构建Ghostscript。即使这不起作用,我们也会更好地帮助您。如果在从规范源构建后不起作用,请打开错误报告。
  6. 我并不认为值得就CIDFonts的优点或其他方面进行长时间的辩论,但这不太可能成为问题的真正根源。