我正在从website中提取数据。我的xml使用UTF-8,网站使用相同的字符集,所以我真的不明白为什么数据编码不正确。
例如,从this page我的Astrit Ajdarević
代替Astrit Ajdarević
,Standard Liège
代替Standard Liège
等等......
详细信息:提取方式?
好吧,我正在使用WebHarvest将html页面转换为有效的xml,然后再进行解析。
因此,对于上面的示例,我使用//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()
获取Astrit Ajdarević
和//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]
获取Standard Liège
...
我希望这能回答你的问题:)
解决方案:
<html-to-xml>
<http url="${link}" charset="utf-8"/>
</html-to-xml>
感谢mactwixs&lt; 3
答案 0 :(得分:2)
您可能需要在Web-Harvest配置文件中将UTF-8设置为默认值,否则不会将其设置为默认值。还要确保您拥有最新版本的Web-Harvest(2.1)
请参阅以下内容:
HTML that your browser resolves还需要:
<meta http-equiv="content-type" content="text/html;charset=utf-8" />
如果不起作用,我建议在sourceforge上提出支持请求。