我最近一直在努力学习Python,并继续学习 Python for Data Analysis ,并使用带有Canopy的Python 2.7。在本书中,他们提供了我保存并分配给path
变量的raw data个链接。尝试使用JSON将文本文件转换为字典列表后:
records = [json.loads(line) for line in open(path)]
我收到以下错误:
---------------------------------------------------------------------------
UnicodeDecodeError Traceback (most recent call last)
<ipython-input-17-b1e0b494454a> in <module>()
----> 1 records = [json.loads(line) for line in open(path)]
C:\Users\Marc\AppData\Local\Enthought\Canopy\App\appdata\canopy-1.4.1.1975.win- x86_64\lib\json\__init__.pyc in loads(s, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
336 parse_int is None and parse_float is None and
337 parse_constant is None and object_pairs_hook is None and not kw):
--> 338 return _default_decoder.decode(s)
339 if cls is None:
340 cls = JSONDecoder
C:\Users\Marc\AppData\Local\Enthought\Canopy\App\appdata\canopy-1.4.1.1975.win- x86_64\lib\json\decoder.pyc in decode(self, s, _w)
363
364 """
--> 365 obj, end = self.raw_decode(s, idx=_w(s, 0).end())
366 end = _w(s, end).end()
367 if end != len(s):
C:\Users\Marc\AppData\Local\Enthought\Canopy\App\appdata\canopy-1.4.1.1975.win-x86_64\lib\json\decoder.pyc in raw_decode(self, s, idx)
379 """
380 try:
--> 381 obj, end = self.scan_once(s, idx)
382 except StopIteration:
383 raise ValueError("No JSON object could be decoded")
UnicodeDecodeError: 'utf8' codec can't decode byte 0x92 in position 6: invalid start byte
奇怪的是,这在不同的计算机上工作,我认为它使用相同版本的Python。提前谢谢。
答案 0 :(得分:2)
有问题的数据包含一个U+2019 RIGHT SINGLE QUOTATION MARK字符,编码为UTF-8。但是您使用复制和粘贴来保存数据,而不是将文本直接保存到磁盘。
这样做,在数据被解码的某个地方,然后再次编码,到Windows Codepage 1252:
>>> u'\u2019'.encode('cp1252')
'\x92'
换句话说,您的数据文件不一样。它可能包含相同的数据,但使用不同的编码。
JSON标准规定数据需要encoded to UTF-8, UTF-16 or UTF-32,UTF-8是默认值,如果你不给它编码,这就是Python json
模块将使用的内容。因为您正在为它提供CP-1252数据,所以解码失败。