file_get_contents()将UTF-8转换为ISO-8859-1

时间:2011-04-08 20:20:55

标签: php utf-8 file-get-contents iso-8859-1

我正在尝试从yahoo.com获取搜索结果。

但是 file_get_contents()将UTF-8字符集(charset,雅虎使用的)内容转换为ISO-8859-1。

尝试:

$filename = "http://search.yahoo.com/search;_ylt=A0oG7lpgGp9NTSYAiQBXNyoA?p=naj%C5%A1%C5%A5astnej%C5%A1%C3%AD&fr2=sb-top&fr=yfp-t-701&type_param=&rd=pref";

echo file_get_contents($filename);

脚本为

header('Content-Type: text/html; charset=UTF-8');

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

$er = mb_convert_encoding($filename , 'UTF-8');

$s2 = iconv("ISO-8859-1","UTF-8",$filename );

echo utf8_encode(file_get_contents($filename));

没有帮助,因为在获取网页内容特殊字符后,šťž被替换为问号???

我会感激任何帮助。

4 个答案:

答案 0 :(得分:7)

这似乎是一个content negotiation问题,因为file_get_contents可能会发送一个只接受ISO 8859-1作为字符编码的请求。

您可以使用明确声明您接受UTF-8的stream contextfile_get_contents创建自定义stream_context_create

$opts = array('http' => array('header' => 'Accept-Charset: UTF-8, *;q=0'));
$context = stream_context_create($opts);

$filename = "http://search.yahoo.com/search;_ylt=A0oG7lpgGp9NTSYAiQBXNyoA?p=naj%C5%A1%C5%A5astnej%C5%A1%C3%AD&fr2=sb-top&fr=yfp-t-701&type_param=&rd=pref";
echo file_get_contents($filename, false, $context);

答案 1 :(得分:3)

file_get_contents应该更改字符集。数据以二进制字符串形式提取。

签出您提供的网址时,这是它提供的标题:

Content-Type: text/html; charset=ISO-8859-1

另外,身体:

<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">

此外,您无法将UTF-8无损转换为ISO-8859-1,并在返回UTF-8时返回字符。 UTF-8 / unicode支持更多字符,因此第一步中字符丢失。

在浏览器中情况并非如此,因此您可能需要提供正确的Accept-Encoding标头来指示yahoo的系统,您可以接受UTF-8。

答案 2 :(得分:1)

$s2 = iconv("ISO-8859-1","UTF-8//TRANSLIT//IGNORE",$filename );

更好的解决方案......

function curl($url){
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_ENCODING, 1);
    return curl_exec($ch);
    curl_close($ch);
}

echo curl($filename);

答案 3 :(得分:1)

对于任何调查此事的人:

我花在编码问题上的时间告诉我,很少有php函数“神奇地”改变字符串的编码。 (其中一个罕见的例子是:

exec( $command, $output, $returnVal )

请注意工作标题集如下:

header('Content-Type: text/html; charset=utf-8');

而不是:

header('Content-Type: text/html; charset=UTF-8');

由于我遇到了与您描述的问题类似的问题,因此正确设置标题就足够了。

希望这有帮助!