Question

我正在创建一个Groovy脚本，我正在解析一个瑞典语网站，我希望从网站上获取瑞典字符Å，Ä和Ö。

这是我正在尝试做的一个例子（不是我在项目中抓取的实际网站，而是一个例子）。

当我运行下面的脚本时，它给我输出“Avancerads kning”，当我真的想要“Avanceradökning”时。

有没有人知道如何以良好的方式进行此编码？

@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )

String page= "http://www.webhallen.com/se-sv/"

def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)

htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}

Answer 1

不确定，但它适用于nekohtml：

@Grab('net.sourceforge.nekohtml:nekohtml:1.9.21')

String page= "http://www.webhallen.com/se-sv/"

def tagsoupParser = new org.cyberneko.html.parsers.SAXParser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)

htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}

如何从网站上使用groovy HtmlParsing获得正确的编码？

1 个答案: