Question

我在html页面中有这个文字

<div class="phone-content">

                            ‪050 2836142‪

                    </div>

我这样提取它：

我正在使用xpath来提取div里面的值

normalize-space(.//div[@class='fieldset-content']/span[@class='listing-reply-phone']/div[@class='phone-content']/text())

我得到了这个结果：

"\u202a050 2836142\u202a"

任何人都知道告诉python中的xpath删除那个unicode字符？

Answer 1

如果您正在寻找XPath解决方案：要删除除给定集合中的所有字符之外的所有字符，您可以按照以下模式使用两个嵌套translate(...)调用：

translate($string, translate($string, ' 0123456789', ''), '')

这将删除所有不是空格字符或数字的字符。您必须用完整的XPath表达式替换两次出现的$string才能获取该字符串。

虽然使用更高级的字符串操作功能在XPath之外应用它可能更合理。那些XPath 1.0非常有限。