我正在创建一个Groovy脚本,我正在解析一个瑞典语网站,我希望从网站上获取瑞典字符Å,Ä和Ö。
这是我正在尝试做的一个例子(不是我在项目中抓取的实际网站,而是一个例子)。
当我运行下面的脚本时,它给我输出“Avancerads kning”,当我真的想要“Avanceradökning”时。
有没有人知道如何以良好的方式进行此编码?
@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
String page= "http://www.webhallen.com/se-sv/"
def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)
htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}
答案 0 :(得分:0)
不确定,但它适用于nekohtml:
@Grab('net.sourceforge.nekohtml:nekohtml:1.9.21')
String page= "http://www.webhallen.com/se-sv/"
def tagsoupParser = new org.cyberneko.html.parsers.SAXParser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParser = slurper.parse(page)
htmlParser.'**'.findAll { it.@class?.text() == 'first-child' }.each {println it.toString()}