大家好,
当我运行此代码时:
from requests_html import HTMLSession
url = 'http://www.spell.org.br/documentos/resultadobusca/?eou%5B%5D=&tipo_busca=simples&campo%5B%5D=RESUMO&texto%5B%5D='\
+ parsekeyword(keyword) +\
'&eou%5B%5D=E&campo%5B%5D=TITULO&texto%5B%5D=&eou%5B%5D=E&campo%5B%5D=TITULO&texto%5B%5D=&mes_inicio=&ano_inicio=&mes_fim=&ano_fim=&qtd_reg_pagina=20&pagina=2'
session = HTMLSession()
link = session.get(url)
linkslist = list(link.html.absolute_links)
我收到此错误消息:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 91835: invalid continuation byte
我认为这是因为某些链接中的非utf-8字符。
由于它发生在方法内部,有没有办法处理这个问题?
我是个乞丐,如果我错过了一些明显的东西,我很抱歉。
答案 0 :(得分:1)
在python3和请求中,您可以使用response.content.decode('utf-8')
,response
变量均值是您的link
变量
答案 1 :(得分:0)
我有同样的问题。 我运行了以下命令,它解决了问题。
pip uninstall requests-html
pip install requests-html