Question

我正在抓取来自google.com的特定网址但我收到了一些错误

'utf8' codec can't decode byte 0xc3 in position 72: invalid continuation byte

代码：

import re
import os
import MySQLdb
import codecs
import requests
import base64
import random
import gzip
import time
from multiprocessing.pool import Pool
import datetime
import time

import sys
reload(sys)
sys.setdefaultencoding('utf-8')
def proxy_mesh():
    while True:
        try: 

            data = requests.get('google.com')

            print data.text.encode('utf-8')
        except Exception, e:
            print e
            print "Trying again"
            time.sleep(3)
proxy_mesh()

什么是FIX以及如何克服此错误？

Answer 1

保持简单并且有效。数据已由requests模块解码。

import requests
data = requests.get('https://www.whoisxmlapi.com/whoisserver/WhoisService?domainName=http://N%E2%94%9CO-RESPONDER@MERCAOLIVRE.COM&outputFormat=json')
print data.text

由于它是JSON响应，您可能还想处理它：

import json
print json.loads(data.text)

Python＆＃39; utf8＆＃39;编解码器不能解码位置72中的字节0xc3：无效的连续字节

1 个答案: