python xpath删除unicode字符

时间:2014-02-22 21:48:59

标签: python python-2.7 xpath unicode

我在html页面中有这个文字

<div class="phone-content">

                            ‪050 2836142‪

                    </div>

我这样提取它:

我正在使用xpath来提取div里面的值

normalize-space(.//div[@class='fieldset-content']/span[@class='listing-reply-phone']/div[@class='phone-content']/text())

我得到了这个结果:

"\u202a050 2836142\u202a"

任何人都知道告诉python中的xpath删除那个unicode字符?

1 个答案:

答案 0 :(得分:1)

如果您正在寻找XPath解决方案:要删除除给定集合中的所有字符之外的所有字符,您可以按照以下模式使用两个嵌套translate(...)调用:

translate($string, translate($string, ' 0123456789', ''), '')

这将删除所有不是空格字符或数字的字符。您必须用完整的XPath表达式替换两次出现的$string才能获取该字符串。

虽然使用更高级的字符串操作功能在XPath之外应用它可能更合理。那些XPath 1.0非常有限。