如何从网站上使用groovy HtmlParsing获得正确的编码?

时间:2015-02-12 20:57:07

标签: html groovy character-encoding

我正在创建一个Groovy脚本,我正在解析一个瑞典语网站,我希望从网站上获取瑞典字符Å,Ä和Ö。

这是我正在尝试做的一个例子(不是我在项目中抓取的实际网站,而是一个例子)。

当我运行下面的脚本时,它给我输出“Avancerads kning”,当我真的想要“Avanceradökning”时。

有没有人知道如何以良好的方式进行此编码?

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )

String page= "http://www.webhallen.com/se-sv/"

def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)

htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}

1 个答案:

答案 0 :(得分:0)

不确定,但它适用于nekohtml:

@Grab('net.sourceforge.nekohtml:nekohtml:1.9.21')

String page= "http://www.webhallen.com/se-sv/"

def tagsoupParser = new org.cyberneko.html.parsers.SAXParser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)

htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}