即使明确声明,HTMLSession似乎也会将默认文本值编码为错误的编码

时间:2019-07-10 06:39:51

标签: encoding python-requests-html

我正在尝试使用Requests-HTML从巴西网站上抓取一些数据。事实证明,我期望通过'response.html.find('p')'方法的'text'属性获取的数据会以某种方式损坏。

我知道该库默认为iso-8859-1,所以我明确地告诉会话对象使用'utf-8'。

from requests_html import HTML, HTMLSession

session = HTMLSession()
r = session.get("http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2015/lei/l13105.htm")
r.coding = 'utf-8'
r.encoding = 'utf-8'
r.html.encoding = 'utf-8'

els = r.html.find("p")
print(els[4000].text)

预期结果将是:

“第1.026条。不得以任何形式的间断性或间接性对所有权利进行宣告。”

但是,我得到: “第1.026条。不得以任何名义上的无效或间接产生的侵害。

0 个答案:

没有答案