应用错误收集

我正在尝试使用Requests-HTML从巴西网站上抓取一些数据。事实证明，我期望通过'response.html.find（'p'）'方法的'text'属性获取的数据会以某种方式损坏。

我知道该库默认为iso-8859-1，所以我明确地告诉会话对象使用'utf-8'。

from requests_html import HTML, HTMLSession

session = HTMLSession()
r = session.get("http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2015/lei/l13105.htm")
r.coding = 'utf-8'
r.encoding = 'utf-8'
r.html.encoding = 'utf-8'

els = r.html.find("p")
print(els[4000].text)

预期结果将是：

“第1.026条。不得以任何形式的间断性或间接性对所有权利进行宣告。”

但是，我得到： “第1.026条。不得以任何名义上的无效或间接产生的侵害。

即使明确声明，HTMLSession似乎也会将默认文本值编码为错误的编码

0 个答案: