XML和重音字符

时间:2012-09-17 21:18:48

标签: xml encoding utf-8 xquery non-ascii-characters

我正在从website中提取数据。我的xml使用UTF-8,网站使用相同的字符集,所以我真的不明白为什么数据编码不正确。

例如,从this page我的Astrit Ajdarević代替Astrit AjdarevićStandard Liège代替Standard Liège等等......

详细信息:提取方式?

好吧,我正在使用WebHarvest将html页面转换为有效的xml,然后再进行解析。

因此,对于上面的示例,我使用//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()获取Astrit Ajdarević//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]获取Standard Liège ...

我希望这能回答你的问题:)


解决方案:

<html-to-xml>
     <http url="${link}" charset="utf-8"/>
</html-to-xml>

感谢mactwixs&lt; 3

1 个答案:

答案 0 :(得分:2)

您可能需要在Web-Harvest配置文件中将UTF-8设置为默认值,否则不会将其设置为默认值。还要确保您拥有最新版本的Web-Harvest(2.1)

请参阅以下内容:

Manual - Config

Manual - HTTP Config

Similar Support Request

HTML that your browser resolves还需要:

<meta http-equiv="content-type" content="text/html;charset=utf-8" />

如果不起作用,我建议在sourceforge上提出支持请求。