我正在使用Web-Harvest来废弃网站并生成包含数据的xml文件。
我有像<name> </name>
这样丑陋的节点,使用normalize-space()没有帮助,所以我在Hex视图中打开文件,我发现它对应于'c2a0'。我寻找一个解决方案,但没有人帮助......
总而言之,我想要的是删除那个奇怪的空间(使用xquery或xpath1 / 2),这样我就可以获得一个空节点<name/>
ps:使用的编码是'iso-8859-1'
答案 0 :(得分:1)
您可以使用translate
删除某些字符。并且utf8 c2a0是字符U + 00A0,十六进制0xA0是160,因此您可以使用codepoints-to-string(160)
来获取带空格的字符串。
合:
translate(your node text, codepoints-to-string(160), "")