Question

我正在从website中提取数据。我的xml使用UTF-8，网站使用相同的字符集，所以我真的不明白为什么数据编码不正确。

例如，从this page我的Astrit AjdareviÄ代替Astrit Ajdarević，Standard LiÃ¨ge代替Standard Liège等等......

详细信息：提取方式？

好吧，我正在使用WebHarvest将html页面转换为有效的xml，然后再进行解析。

因此，对于上面的示例，我使用//div[2]/div[1]/div[2]/div[2]/div[2]/table/tbody/tr[1]/td[2]/text()获取Astrit AjdareviÄ和//*[@id="site"]//div[contains(./div/h2, 'Spieler')]//tbody/tr[2]/td[position()=3]获取Standard LiÃ¨ge ...

我希望这能回答你的问题：）

解决方案：

<html-to-xml>
     <http url="${link}" charset="utf-8"/>
</html-to-xml>

感谢mactwixs＆lt; 3

Answer 1

您可能需要在Web-Harvest配置文件中将UTF-8设置为默认值，否则不会将其设置为默认值。还要确保您拥有最新版本的Web-Harvest（2.1）

请参阅以下内容：

Manual - Config

Manual - HTTP Config

Similar Support Request

HTML that your browser resolves还需要：

<meta http-equiv="content-type" content="text/html;charset=utf-8" />

如果不起作用，我建议在sourceforge上提出支持请求。

XML和重音字符

1 个答案: