用PHP解析中文页面

时间:2014-04-30 23:10:21

标签: php curl utf-8

我想从中文页面中提取一些信息。

源页面使用 content =" text / html进行编码;字符集= GB2312"

是否可以制作一个普遍的" utf8"翻译"使用编码(utf8,iso,gb ...)?

我试试这个,但它不适用于中文:

[...]

$return = curl_exec($curl);

if ( !mb_check_encoding( $return, 'UTF-8' ) ) {
    $return = utf8_encode($return);
}

由于

1 个答案:

答案 0 :(得分:0)

utf8_encode仅转换为ISO-8859-1,因此对您的目的毫无用处。只要您知道源编码,iconv就更适合从一种编码转换为另一种编码。

像这样使用它:

echo iconv('GB2312', 'UTF-8', $return);