我在html页面中有这个文字
<div class="phone-content">
050 2836142
</div>
我这样提取它:
我正在使用xpath来提取div里面的值
normalize-space(.//div[@class='fieldset-content']/span[@class='listing-reply-phone']/div[@class='phone-content']/text())
我得到了这个结果:
"\u202a050 2836142\u202a"
任何人都知道告诉python中的xpath删除那个unicode字符?
答案 0 :(得分:1)
如果您正在寻找XPath解决方案:要删除除给定集合中的所有字符之外的所有字符,您可以按照以下模式使用两个嵌套translate(...)
调用:
translate($string, translate($string, ' 0123456789', ''), '')
这将删除所有不是空格字符或数字的字符。您必须用完整的XPath表达式替换两次出现的$string
才能获取该字符串。
虽然使用更高级的字符串操作功能在XPath之外应用它可能更合理。那些XPath 1.0非常有限。