我正在从我正在解析的wiki页面中丢失重要的空白,我认为这是因为解析器。我在我的Groovy脚本中有这个:
@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
def slurper = new XmlSlurper(new org.ccil.cowan.tagsoup.Parser())
slurper.keepWhitespace = true
inputStream.withStream{ doc = slurper.parse(it)
println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value
}
从URL GET请求初始化inputStream以编辑confluence wiki页面。 稍后在withInputStream块中我执行此操作:
println "originalContent = " + doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'}.@value
我注意到该页面的所有原始内容都被删除了其换行符。我原本以为这是服务器端的事情,但是当我在浏览器中查看相同的req并查看源代码时,我可以在“originalContent”隐藏参数中看到换行符。有没有一种简单的方法来禁用空白规范化并保留字段的内容?以上是针对内部Confluence维基页面运行的,但在编辑任意维基页面时很可能会受到批评。
以上更新 我添加了一个“slurped.keepWhitespace = true”的调用以试图保留空格,但仍然无效。我认为这个方法是针对元素而不是属性的?有没有办法轻松调整底层Java XMLParser上的标志?是否有为属性值中的空格设置的特定设置?
答案 0 :(得分:1)
我首先尝试使用我自己的一些汇合页面重现这一点,但输入节点中没有值属性和文本内容,因此我创建了自己的测试html。
现在,我认为需要将tagsoup解析器配置为保留空格,只需在slurper上设置它就无济于事,因为默认是忽略空格。
所以我做到了这一点,tagsoup feature ignorable-whitespace被记录下来了。 (在页面上搜索空白)
无论如何,它不起作用。从示例中可以看到,属性中的空白被保留,尽管设置了额外的功能,但保留文本空白似乎不起作用。也许这是tagoup或xml slurper中的错误?
我建议你仔细看看你的html,是否真的存在一个值属性?
@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
String html = """\
<html><head><title>test</title></head><body>
<p>
<form id="editpageform">
<p>
<input name="originalContent" value=" ">
</input>
</p>
</form>
</p>
</body></html>
"""
def inputStream = new ByteArrayInputStream(html.getBytes())
def parser = new org.ccil.cowan.tagsoup.Parser()
parser.setFeature("http://www.ccil.org/~cowan/tagsoup/features/ignorable-whitespace", true)
def slurper = new XmlSlurper(parser)
slurper.keepWhitespace = true
inputStream.withStream{ doc = slurper.parse(it)
def parse = { doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'} }
println "originalContent (name) = '${parse().@name}'"
println "originalContent (value) = '${parse().@value}'"
println "originalContent (text) = '${parse().text()}'"
}
答案 1 :(得分:0)
似乎新行不会保留在value属性中。见下文:
@Grab(group='org.ccil.cowan.tagsoup', module='tagsoup', version='1.2' )
String html = """\
<html><head><title>test</title></head><body>
<p>
<form id="editpageform">
<p>
<input name="originalContent" value="
">
</input>
</p>
</form>
</p>
</body></html>
"""
def inputStream = new ByteArrayInputStream(html.getBytes())
def parser = new org.ccil.cowan.tagsoup.Parser()
parser.setFeature("http://www.ccil.org/~cowan/tagsoup/features/ignorable-whitespace", true)
def slurper = new XmlSlurper(parser)
slurper.keepWhitespace = true
inputStream.withStream{ doc = slurper.parse(it)
def parse = { doc.'**'.find{ it.@id == 'editpageform' }.'**'.find { it.@name=='originalContent'} }
println "originalContent (name) = '${parse().@name}'"
println "originalContent (value) = '${parse().@value}'"
println "originalContent (text) = '${parse().text()}'"
assert parse().@value.toString().contains('\n') : "Should contain a newline"
}