解码php字符串中的日文字符?

时间:2013-10-10 15:53:56

标签: php html curl

我在PHP中使用cURL来废弃网页。我需要得到的一些词是日文字符。我也使用Simple DOM Parser来帮助我轻松解析源代码。我在弄清楚如何正确获取日文字符方面遇到了一些麻烦。每次我在我的页面上运行以下脚本时,我都会收到没有收到的数据。我想我需要以某种方式将字符转换为UTF-8标准,但我不完全确定如何做到这一点。它虽然抓住了所有的英文字符,所以我知道脚本确实有效。它只对其他角色不起作用。有人认为他们可以帮助我吗?我已经包含了我正在废弃的源代码的示例。

CODE:

        $base = '{website url}';

        $curl = curl_init();
        curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE);
        curl_setopt($curl, CURLOPT_HEADER, array('User-Agent: Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:19.0) Gecko/20100101 Firefox/19.0'));
        curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
        curl_setopt($curl, CURLOPT_URL, $base);
        curl_setopt($curl, CURLOPT_REFERER, $base);
        curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
        $str = curl_exec($curl);
        curl_close($curl);

        // Create a DOM object
        $html = new simple_html_dom();
        // Load HTML from a string
        $html->load($str);

        foreach($html->find('div.holder') as $element){
            if($element->find('div.img-small', 0)){

                $title = '';
                $image = '';

                foreach($element->find('a[href]') as $tempElement){
                    if($tempElement->find('img')){
                        $image = $tempElement->find('img')->src;
                    } else {
                        $title = $tempElement->innertext;

                    }
                }

                echo $title.'<br/>';





            }       
        }

DATA:

<div class="holder">
    <div class="img-small">
        <a href="/link/abcd"><img src="/images/image.png"></a>
    </div>

    <div>
        <div>
            <img title="This is a title" class="valign" src="/images/image.png"><b>
                <a href="/link/1234abcd">{Japanese characters}</a>
        </div>          
    </div>
</div>

1 个答案:

答案 0 :(得分:0)

将它放在页面顶部

<head>
<META http-equiv="Content-Type" Content="text/html; charset=euc-jp">
</head>