我想从<meta charset="UTF-8"/>
html文档中获取数据,实际上,在不了解html和编码的情况下。
这是我想要获取的刺痛:
<title>Tom & Jerry » The First Adventure</title>
我的代码中读取它的部分是:
title = tree.xpath('//title/text()')[0]
但它只会取'Tom'作为名称/变量的对象title
如果HTML标题是
<title>Tom & Jerry » The First Adventure</title>
它只能获取 Tom&amp;杰里
我怀疑答案是排序,但我不知道如何搜索它。我需要做什么才能获取 Tom&amp;杰瑞»第一次冒险?
答案 0 :(得分:0)
OP解决方案。
问题是为什么xpath
模块的lxml
方法只给了我字符串,直到任何特殊字符。但我错了。 xpath正如我想要的那样完整地读取整个字符串。然后我通过API请求发送此字符串,服务器无法读取整个字符串。简单替换方法是我的问题的解决方案,其中&
替换为&
,»
替换为»
。