当碰到特殊字符时,Python Xpath会停止读取(HTML5实体和Python)

时间:2018-01-01 09:52:32

标签: python html5 xpath lxml

我想从<meta charset="UTF-8"/> html文档中获取数据,实际上,在不了解html和编码的情况下。

这是我想要获取的刺痛:

<title>Tom & Jerry  &raquo; The First Adventure</title>

我的代码中读取它的部分是:

title = tree.xpath('//title/text()')[0]

但它只会取'Tom'作为名称/变量的对象title

如果HTML标题是

<title>Tom &amp; Jerry » The First Adventure</title>

它只能获取 Tom&amp;杰里

我怀疑答案是排序,但我不知道如何搜索它。我需要做什么才能获取 Tom&amp;杰瑞»第一次冒险

1 个答案:

答案 0 :(得分:0)

OP解决方案。

问题是为什么xpath模块的lxml方法只给了我字符串,直到任何特殊字符。但我错了。 xpath正如我想要的那样完整地读取整个字符串。然后我通过API请求发送此字符串,服务器无法读取整个字符串。简单替换方法是我的问题的解决方案,其中&替换为&amp;»替换为&raquo;