"解码错误 - 输出不是UTF-8"来自HTML

时间:2015-10-12 22:05:56

标签: python utf-8 beautifulsoup

我在Python中使用代码运行BS4:

import urllib
import requests
from bs4 import BeautifulSoup
from bs4 import UnicodeDammit

with requests.Session() as s:
     page = s.get(url)  

doc = page.text

soup = BeautifulSoup(doc, "html.parser")
print(soup)

这会产生错误:[解码错误 - 输出不是utf-8]

使用以下代码会产生相同的错误:

doc = UnicodeDammit.detwingle(page.text)

使用忽略:

soup = BeautifulSoup(page.read().decode('utf-8', 'ignore'))

给我不同的错误:

  

AttributeError:'响应'对象没有属性'读'

0 个答案:

没有答案