我正在尝试使用Requests-HTML从巴西网站上抓取一些数据。事实证明,我期望通过'response.html.find('p')'方法的'text'属性获取的数据会以某种方式损坏。
我知道该库默认为iso-8859-1,所以我明确地告诉会话对象使用'utf-8'。
from requests_html import HTML, HTMLSession
session = HTMLSession()
r = session.get("http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2015/lei/l13105.htm")
r.coding = 'utf-8'
r.encoding = 'utf-8'
r.html.encoding = 'utf-8'
els = r.html.find("p")
print(els[4000].text)
预期结果将是:
“第1.026条。不得以任何形式的间断性或间接性对所有权利进行宣告。”
但是,我得到: “第1.026条。不得以任何名义上的无效或间接产生的侵害。