用HTML检测汉字

时间:2013-06-25 08:46:03

标签: character-encoding

有用链接了解编码 http://kunststube.net/encoding/ - 由@deceze分享

我正试图检测中文字符,但不能。当我尝试回声时,我明白了 “'E±|±'ÒÑϼܔ。我不需要显示它,只需要检测html页面上的字符。

//Set the post parameters
    curl_setopt($ch, CURLOPT_URL, 'http://bit.ly/1y');
    //execute new request
    $htmlcode = curl_exec($ch);
    curl_close($ch);

    if (stripos($htmlcode, "已下架") !== false) {
    echo "True";
}else{
  echo "Fail";
}

任何建议都将不胜感激

1 个答案:

答案 0 :(得分:2)

页面编码为GBK。您可能将源保存为UTF-8,因此"已下架"是UTF-8编码的。因此stripos将不匹配,因为它只是比较字节并且不能识别编码。

$htmlcode转换为文件的编码,或将"已下架"转换为$htmlcode的编码以执行字符串匹配。使用mb_convert_encodingiconv