我正在使用Simple HTML DOM Class进行网页报废。问题是它会针对unicode字符生成奇怪的字符。
हंगामा है कà¥à¤¯à¥‚ठबरपा / अकबर इलाहाबादी
反对印地文unicode角色。
लेकिन इतना तो हुआ कुछ लोग
是我的印地语文本。
当我打印屏幕输出时,它输出相同的奇怪字符。
function getDomContent($data) {
$html = new simple_html_dom();
$html->load($data);
foreach ($html->find('table[id=content] li') as $element) {
$content[] = $element->plaintext;
}
return $content;
}
我的卷曲功能
function getContent($url) {
$timeout = 5;
$ch = curl_init();
$user_agent = 'Mozilla/5.0 (Windows NT 6.1; rv:8.0) Gecko/20100101 Firefox/8.0';
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_USERAGENT, $user_agent);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 120);
curl_setopt($ch, CURLOPT_TIMEOUT, 120);
curl_setopt($ch, CURLOPT_MAXREDIRS, 10);
curl_setopt($ch, CURLOPT_COOKIEFILE, "cookie.txt");
curl_setopt($ch, CURLOPT_COOKIEJAR, "cookie.txt");
$data = curl_exec($ch);
curl_close($ch);
return $data;
}
$data = getContent($url);
$content = getDomContent($data);
echo '<pre>Array Content: ' . '<br/>';
print_r($content);
die($query);
答案 0 :(得分:0)
编码似乎有问题。 尝试使用iconv PHP函数。
$text = iconv("current text codification", "UTF-8", $text)
但是如果您不知道当前的编码,请尝试使用iconv_set_encoding将其设置为全局配置。
iconv_set_encoding("internal_encoding", "UTF-8");
答案 1 :(得分:0)
我通过在页面中添加标题解决了这个问题......
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
它解决了所有问题。