Groovy XmlSlurper从NodeChildren中获取价值

时间:2015-04-08 00:26:56

标签: groovy html-parsing xmlslurper nodechildren

我正在解析HTML并尝试从一个特定节点获取完整/未解析的值。

HTML示例:

<html>
    <body>
        <div>Hello <br> World <br> !</div>
        <div><object width="420" height="315"></object></div>
    </body>
</html>

代码:

def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParsed = slurper.parseText(stringToParse)

println htmlParsed.body.div[0]

然而,它只返回第一个节点的文本,我得到第二个节点的空字符串。问题:如何检索第一个节点的值,以便我得到:

Hello <br> World <br> !

1 个答案:

答案 0 :(得分:4)

这是我用来从第一个div标签获取内容(省略xml声明和命名空间)。

Groovy的

@Grab('org.ccil.cowan.tagsoup:tagsoup:1.2.1')
import org.ccil.cowan.tagsoup.Parser
import groovy.xml.*

def html = """<html>
    <body>
        <div>Hello <br> World <br> !</div>
        <div><object width="420" height="315"></object></div>
    </body>
</html>"""

def parser = new Parser()
parser.setFeature('http://xml.org/sax/features/namespaces',false)
def root = new XmlSlurper(parser).parseText(html)
println new StreamingMarkupBuilder().bindNode(root.body.div[0]).toString()

给出

<div>Hello <br clear='none'></br> World <br clear='none'></br> !</div>

N.B。除非我弄错了,否则感谢你is adding the closing tags。如果您真的想要Hello <br> World <br> !,您可能必须使用不同的库(可能是正则表达式?)。

我知道它在输出中包含div元素......这是一个问题吗?