Question

我想从<meta charset="UTF-8"/> html文档中获取数据，实际上，在不了解html和编码的情况下。

这是我想要获取的刺痛：

<title>Tom & Jerry  &raquo; The First Adventure</title>

我的代码中读取它的部分是：

title = tree.xpath('//title/text()')[0]

但它只会取'Tom'作为名称/变量的对象title

如果HTML标题是

<title>Tom &amp; Jerry » The First Adventure</title>

它只能获取 Tom＆amp;杰里

我怀疑答案是排序，但我不知道如何搜索它。我需要做什么才能获取 Tom＆amp;杰瑞»第一次冒险？

Answer 1

OP解决方案。

问题是为什么xpath模块的lxml方法只给了我字符串，直到任何特殊字符。但我错了。 xpath正如我想要的那样完整地读取整个字符串。然后我通过API请求发送此字符串，服务器无法读取整个字符串。简单替换方法是我的问题的解决方案，其中&替换为&，»替换为»。