我正在尝试从网页中检索图片,到目前为止它一直运行良好,除了我正在查看的其中一个网站正在将图像作为Content-Type: text/html
投放,导致我的脚本拒绝它不是真实的形象。
这是我用来确定内容类型的代码段:
$accepted_mime = array('image/gif', 'image/jpeg', 'image/jpg', 'image/png');
$headers = get_headers($image);
// Find the Content-Type header
$num_headers = sizeOf($headers);
for($x=0;$x<$num_headers;$x++) {
preg_match('/^Content-Type: (.+)$/', $headers[$x], $mime_type);
if (isset($mime_type[1]) && in_array($mime_type[1], $accepted_mime)) {
return true;
}
}
对于我尝试过的网站,它们会正常返回(image/gif
,image/png
等结果),但mpaa.org
似乎为其text/html
类型的图片提供服务。这是正常的吗?
我添加了print_r
以查看get_headers`返回的标头数组:
Array
(
[0] => http://www.mpaa.org/templates/images/header_mpaa_logo.gif
[1] => Array
(
[0] => HTTP/1.1 200 OK
[1] => Server: nginx/1.2.0
[2] => Date: Sat, 17 Nov 2012 17:19:06 GMT
[3] => Content-Type: text/html
[4] => Connection: close
[5] => P3P: CP="NON DSP COR ADMa OUR IND UNI COM NAV INT"
[6] => Cache-Control: no-cache, no-store, must-revalidate
[7] => Pragma: no-cache
)
)
我可以轻松地将text/html
添加到我接受的内容类型列表中,但这绝对不是理想的解决方案;)有谁知道为什么mpaa.org使用此Content-Type
提供图像?是这样做的常规做法(可能是遗留的网站/服务器)?
谢谢:)
答案 0 :(得分:2)
精彩的MPAA正在使用用户代理嗅探或检查cookie来确定您的浏览器是否支持JavaScript。由于您没有指定用户代理字符串或发送cookie,因此他们假设您没有JavaScript并返回一个页面,而不是原始图像。
如果您使用浏览器加载,则会注意到您获得了image/gif
以及您所追踪的图片:http://www.mpaa.org/templates/images/header_mpaa_logo.gif
如果您使用cURL或Fiddler或其他一些古怪的用户代理字符串发出相同的请求:
此网站需要启用JavaScript和Cookie。请更改您的浏览器设置或升级您的浏览器。
答案 1 :(得分:0)
不要依赖标题。它们可以很容易地改变,就像你现在遇到的那样,是不可靠的。
我会这样做: