图像标题返回text / html

时间:2012-11-17 18:53:32

标签: php image header

我正在尝试从网页中检索图片,到目前为止它一直运行良好,除了我正在查看的其中一个网站正在将图像作为Content-Type: text/html投放,导致我的脚本拒绝它不是真实的形象。

这是我用来确定内容类型的代码段:

$accepted_mime = array('image/gif', 'image/jpeg', 'image/jpg', 'image/png');    
$headers = get_headers($image);

// Find the Content-Type header
$num_headers = sizeOf($headers);
for($x=0;$x<$num_headers;$x++) {
    preg_match('/^Content-Type: (.+)$/', $headers[$x], $mime_type);
    if (isset($mime_type[1]) && in_array($mime_type[1], $accepted_mime)) {
        return true;
    }
}

对于我尝试过的网站,它们会正常返回(image/gifimage/png等结果),但mpaa.org似乎为其text/html类型的图片提供服务。这是正常的吗?

我添加了print_r以查看get_headers`返回的标头数组:

Array
(
    [0] => http://www.mpaa.org/templates/images/header_mpaa_logo.gif
    [1] => Array
        (
            [0] => HTTP/1.1 200 OK
            [1] => Server: nginx/1.2.0
            [2] => Date: Sat, 17 Nov 2012 17:19:06 GMT
            [3] => Content-Type: text/html
            [4] => Connection: close
            [5] => P3P: CP="NON DSP COR ADMa OUR IND UNI COM NAV INT"
            [6] => Cache-Control: no-cache, no-store, must-revalidate
            [7] => Pragma: no-cache
        )

)

我可以轻松地将text/html添加到我接受的内容类型列表中,但这绝对不是理想的解决方案;)有谁知道为什么mpaa.org使用此Content-Type提供图像?是这样做的常规做法(可能是遗留的网站/服务器)?

谢谢:)

2 个答案:

答案 0 :(得分:2)

精彩的MPAA正在使用用户代理嗅探或检查cookie来确定您的浏览器是否支持JavaScript。由于您没有指定用户代理字符串或发送cookie,因此他们假设您没有JavaScript并返回一个页面,而不是原始图像。

如果您使用浏览器加载,则会注意到您获得了image/gif以及您所追踪的图片:http://www.mpaa.org/templates/images/header_mpaa_logo.gif

如果您使用cURL或Fiddler或其他一些古怪的用户代理字符串发出相同的请求:

  

此网站需要启用JavaScript和Cookie。请更改您的浏览器设置或升级您的浏览器。

答案 1 :(得分:0)

不要依赖标题。它们可以很容易地改变,就像你现在遇到的那样,是不可靠的。

我会这样做:

  • 下载图片
  • 检查图像是否是图像(使用getimagesize或类似的东西)