文件获取内容检索问题菱形字符

时间:2019-09-01 17:36:45

标签: php html file character-encoding file-get-contents

我已经使用file_get_contents函数创建了我的搜寻器,但是当我搜寻某些站点时,我得到了这个字符:�我应该得到这个:é。有关正在发生的事情的一些想法?

这是针对运行php的Windows vps服务器。

我已经尝试过:

但是所有这些都不起作用。

PD :运行此代码的文件位于UTF8上。

    $url = "https://play.google.com/books/reader?id=4rqYDwAAQBAJ&hl=en_US";
    $options = array('http'=>array('method'=>"GET", 'header'=>"Accept-language: en-US,en;q=0.8\r\n" ."Accept-Charset: UTF-8, *;q=0"));
            $context = stream_context_create($options)
            $profile = file_get_contents($url,false,$context);
echo $profile

我希望获得带重音符号的字符,而不是菱形字符。。

1 个答案:

答案 0 :(得分:2)

Google忽略了您的 Accept-Charset 标头,因为您没有指定User-Agent,也不知道为什么。我花了一个小时才弄清楚。如下调整您的选项:

$options = [
    "http" => [
        "method" => "GET",
        "header" => "Accept-language: en-US,en;q=0.8\\r\n" .
                    "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0\r\n" .
                    "Accept-Charset: UTF-8, *;q=0"
              ]
];

添加“ User-Agent”标头似乎可以解决问题。如果没有,Google可能会返回不同的编码。