PDF文件是否可以定义0页,否则页面大小等于0吗?

时间:2019-04-28 11:21:37

标签: php pdf imagick

我有一个使用Imagick的PHP脚本,但是如果用户提供的PDF文件不包含页面或者页面没有高度或宽度,则存在NAN错误的风险。我不确定在PDF结构中是否可行。同样,从大于总页数的页码中生成jpeg也会导致错误。通常是否可以发送有效的PDF文件包装但没有实际页面内容?

核心问题:在进入从PDF到JPEG的转换之前,如何计数和测量页面以捕获正确的错误?

在下面的函数中,我假设可能有0个高度或0个宽度。并使用代码if($ imH == 0){$ imH = 1;},但是基于假设的代码感觉不对。

该功能的某些部分来自umidjons的一篇文章:https://gist.github.com/umidjons/11037635

PHP代码:

function genPdfThumbnail ( $src, $targ, $size=256, $page=1 ){

    if(file_exists($src) && !is_dir($src)): // source path must be available and cannot be a directory

        if(mime_content_type($src) != 'application/pdf'){return FALSE;} // source is not a pdf file returns a failure

        $sepa   =   '/'; // using '/' as path separation for nfs on linux.
        $targ   =   dirname($src).$sepa.$targ;
        $size   =   intval($size); // only use as integer, default is 256
        $page   =   intval($page); // only use as integer, default is 1     
        $page--; // default page 1, must be treated as 0 hereafter
        if ($page<0){$page=0;} // we cannot have negative values

        $img    =   new Imagick($src."[$page]");
        $imH    =   $img->getImageHeight();
        $imW    =   $img->getImageWidth();

        if ($imH==0) {$imH=1;} // if the pdf page has no height use 1 instead
        if ($imW==0) {$imW=1;} // if the pdf page has no width use 1 instead
        $sizR   =   round($size*(min($imW,$imH)/max($imW,$imH))); // relative pixels of the shorter side

        $img    ->  setImageColorspace(255); // prevent image colors from inverting
        $img    ->  setImageBackgroundColor('white'); // set background color before flatten
        $img    =   $img->flattenImages(); // prevent black zones on transparency in pdf
        $img    ->  setimageformat('jpeg');

        if ($imH == $imW){$img->thumbnailimage($size,$size);} // square page 
        if ($imH < $imW) {$img->thumbnailimage($size,$sizR);} // landscape page orientation
        if ($imH > $imW) {$img->thumbnailimage($sizR,$size);} // portrait page orientation      
        if(!is_dir(dirname($targ))){mkdir(dirname($targ),0777,true);} // if not there make target directory

        $img    ->  writeimage($targ);
        $img    ->  clear();
        $img    ->  destroy();

        if(file_exists( $targ )){ return $targ; } // return the path to the new file for further processing

    endif;
    return FALSE; // source file not available or Imagick didn't create jpeg file, returns a failure

}

调用函数,例如喜欢:

$newthumb = genPdfThumbnail('/nfs/vsp/server/u/user/public_html/any.pdf','thumbs/any.p01.jpg',150,'01');

2 个答案:

答案 0 :(得分:0)

当然,PDF文件是一种容器格式,可以包含几乎所有内容,包括(仅)0页的元数据。但是即使如此,使用此代码也可以在仅包含5页的文档上请求第21页的缩略图。

如果发生这种情况,此行将发生问题:

$img    =   new Imagick($src."[$page]");

如果提供的页面不存在,这将引发异常。您可以捕获该异常并根据需要进行处理:

try {
    $img = new Imagick($src."[$page]");
} except (ImagickException $error) {
    return false;
}

如果您想事先阅读页数,可以尝试让Imagick首先解析文档:

$pdf = new Imagick($src);
$pages = $pdf->getNumberImages();
  

函数名称有点误导,请参见PHP手册中的this comment

     

“对于PDF,此功能指示PDF上的页数,而不是可能嵌入PDF的图像。”

这里,如果PDF文档在某种程度上无效,则可能引发异常,因此您可能想捕获并处理它:

try {
    $pdf = new Imagick($src);
    $pages = $pdf->getNumberImages();
} except (ImagickException $error) {
    return false;
}

if ($pages < $page) {
    return false;
}

答案 1 :(得分:0)

PDF的“页面树”中至少需要包含一页,因此您不能拥有有效的零页面PDF。如果您有这样的PDF,并且您的PDF软件将其读为有效的,并且报告了零页,那么该软件将具有很大的误导性。

在这种情况下,如果我没有记错的话,Acrobat将显示一个带有错误消息的对话框,并且我想大多数其他PDF软件也会同样抱怨。

PDF的页面边界是由矩形定义的,矩形本身没有限制,我不能在规范中找到关于不允许零宽度和/或高度的限制。尽管实际上来讲,拥有它是很奇怪的,而且大多数PDF软件可能会抱怨或绊倒它。

您当然可以拥有一个没有内容的PDF页面,例如一个空白的8.5x11“页面是完全有效的。您可以使用该页面,也可以在页面上使用一些文本/图像,如果愿意,可以向用户表明您的错误。