我正试图在锚点之后刮掉一些空格的页面:
</a> |
我似乎无法找到指定文本的方法,我要么触发处理器错误,要么我无法检测到字符串本身。导致html-to-xml转换失败的所有内容,因为包含字符时xml格式不正确。所以,我需要删除之后的所有内容(请注意,在文档中的其他位置之后还有其他部分存在div标记或其他内容。)
我的代码:
<xpath expression="/">
<regexp replace="true">
<regexp-pattern>(nbsp;)</regexp-pattern>
<regexp-source>
<html-to-xml omitcomments="true" advancedxmlescape="true" prunetags="head,script,meta,meta ,p,base,br,link,img,image,input,option,nbsp;">
<http url="http://mysite.org/map/aindex/" method="get" />
</html-to-xml>
</regexp-source>
<regexp-result>
<template></template>
</regexp-result>
</regexp>
</xpath>
我认为我的问题在于regexp-pattern。我试过了:
\& nbsp; (without the space in between -- SO doesn't display that correctly
\s+\|\s+
除其他事项外。我甚至尝试将表达式放在CDATA元素中,但我也无法使其工作。
有什么想法?
答案 0 :(得分:2)
对于regexp-pattern中的
,您可以尝试使用\u00A0