b64decode对json导入读取数据不正确

时间:2018-05-09 18:10:56

标签: python json python-3.x csv decode

我从github导入一个类的json数据,当我尝试转换为字典时,值不会保留在键值对中。

这是导入:

from pprint import pprint as pp
import base64

response = requests.get('https://api.github.com/repos/bsullins/data/contents/MonthlySales.csv')

response_json = json.loads(response.text)
csv_val = base64.b64decode(response_json['content'])

pp(csv_val)

这样的结果有原始数据,虽然我不确定" \ r \ n"分隔符是。显然它没有正确导入,因为字符串在不同的点被切断了。

(b'month,sales\r\n2013-01-01,14236.9\r\n2013-02-01,4519.89\r\n2013-03-01,5569'
 b'1.01\r\n2013-04-01,28295.35\r\n2013-05-01,23648.29\r\n2013-06-01,34595.13\r'
 b'\n2013-07-01,33946.39\r\n2013-08-01,27909.47\r\n2013-09-01,81777.35\r\n2013'
 b'-10-01,31453.39\r\n2013-11-01,78628.72\r\n2013-12-01,69545.62\r\n2014-01-0'
 b'1,18174.08\r\n2014-02-01,11951.41\r\n2014-03-01,38726.25\r\n2014-04-01,341'
 b'95.21\r\n2014-05-01,30131.69\r\n2014-06-01,24797.29\r\n2014-07-01,28765.33'

当我稍后尝试使用DictReader读取数据时,它会逐字逐句解析所有内容:

import csv

csv_dict = csv.DictReader(str(csv_val))
dict_list = []

for a in csv_dict:
    dict_list.append(a):

for a in dict_list:
    print(a)

结果如下:

OrderedDict([('b', "'")])
OrderedDict([('b', 'm')])
OrderedDict([('b', 'o')])
OrderedDict([('b', 'n')])
OrderedDict([('b', 't')])
OrderedDict([('b', 'h')])
OrderedDict([('b', ''), (None, [''])])
OrderedDict([('b', 's')])
OrderedDict([('b', 'a')])
OrderedDict([('b', 'l')])
OrderedDict([('b', 'e')])
OrderedDict([('b', 's')])
OrderedDict([('b', '\\')])
OrderedDict([('b', 'r')])
OrderedDict([('b', '\\')])
OrderedDict([('b', 'n')])
OrderedDict([('b', '2')])
OrderedDict([('b', '0')])
OrderedDict([('b', '1')])
OrderedDict([('b', '3')])
OrderedDict([('b', '-')])
OrderedDict([('b', '0')])
OrderedDict([('b', '1')])
OrderedDict([('b', '-')])
OrderedDict([('b', '0')])
OrderedDict([('b', '1')])
OrderedDict([('b', ''), (None, [''])])
OrderedDict([('b', '1')])
OrderedDict([('b', '4')])
OrderedDict([('b', '2')])
OrderedDict([('b', '3')])
OrderedDict([('b', '6')])
OrderedDict([('b', '.')])
OrderedDict([('b', '9')])
OrderedDict([('b', '\\')])
OrderedDict([('b', 'r')])
OrderedDict([('b', '\\')])
OrderedDict([('b', 'n')])
OrderedDict([('b', '2')])
OrderedDict([('b', '0')])
OrderedDict([('b', '1')])
OrderedDict([('b', '3')])
OrderedDict([('b', '-')])
OrderedDict([('b', '0')])
OrderedDict([('b', '2')])
OrderedDict([('b', '-')])
OrderedDict([('b', '0')])
OrderedDict([('b', '1')])
OrderedDict([('b', ''), (None, [''])])
OrderedDict([('b', '4')])
OrderedDict([('b', '5')])
OrderedDict([('b', '1')])
OrderedDict([('b', '9')])
OrderedDict([('b', '.')])
...

1 个答案:

答案 0 :(得分:0)

我查看了api https://api.github.com/repos/bsullins/data/contents/MonthlySales.csv,响应中有一个键值

download_url:"https://raw.githubusercontent.com/bsullins/data/master/MonthlySales.csv"

这个url实际上包含了csv的原始格式,所以让我们使用它,因为它也减少了代码。

from pprint import pprint as pp
import requests
import io
import csv
response = requests.get('https://raw.githubusercontent.com/bsullins/data/master/MonthlySales.csv')
csv_val = response.text
pp(csv_val)
csv_dict = csv.DictReader(io.StringIO(csv_val))
dict_list = []

for a in csv_dict:
    dict_list.append(a)

for a in dict_list:
    print(a)

您需要使用StringIO来解析字符串值csv_val,因为csv需要字符串的内存中流。见Python csv.DictReader: parse string?