如何定义检索到的html页面的编码(xpath)

时间:2012-06-25 10:27:02

标签: php html xpath character-encoding domdocument

检索网页时(不是我自己的网页)。 XPath返回奇怪的字符。使用时

iconv("UTF-8","ISO-8859-1",$xpath_results->item(0)->nodeValue)

一切都很好。但是,每次都必须这样做是不是很整洁。返回的html如下所示:

  

周26岁HuiswerkklasÂheleth weekaanvangÂ13.3​​0uur Dinsdag 26 juni   Vergadering feestcommissie 10.00 uur Lok.9

如何在加载网页时设置正确的编码,而不是每次导出时都这样做。

在查看类似问题时,我尝试了以下内容:

$uitval_document->loadHTML('<?xml encoding="UTF-8">'.file_get_contents(BASE_URL_uitval68.$value->getAttribute('href')));

当然没有用,因为它是HTML而不是我正在检索的XML。在HTML中,编码将放在head标签中。因此,可以加载HTML将其添加到headtag,并使用正确的编码重新加载它。但这不是非常有效而且相当hackish。你们知道更好的解决方案吗?

0 个答案:

没有答案