输出中的字符不正确

时间:2012-11-18 19:13:22

标签: xpath utf-8 web-scraping domdocument

我正在尝试使用Xpath学习网页抓取。下面的代码有效,但输出包含不正确的字符,我无法设法做到这一点。

示例:

  • 输出:EmÃ¥mejeriet
  • 应该如何:Emåmejeriet

PHP代码:

<?php
// Tried with these parameters but they doesn't make any difference
$html = new DOMDocument('1.0', 'UTF-8');
$html->loadHtmlFile('http://thesite.com/thedoc.html);
$xpath = new DOMXPath($html);
$nodelist = $xpath->query("//table");
foreach ($nodelist as $n) {
    echo $n->nodeValue."\n";
}
?>

我该怎么做才能解决这个问题?

1 个答案:

答案 0 :(得分:1)

你应该试试encode()&amp; decode() php如果使用ISO8859-15则会发挥作用,如果不使用iconv()则会发挥作用。

示例:

<?php
iconv_set_encoding("internal_encoding", "UTF-8");
iconv_set_encoding("output_encoding", "ISO-8859-1");
?>