Question

我正在尝试将json文件转换为表格格式，其中我在第一行中包含不同的字段，并在其余行中包含这些字段的相应数据。

将我的json转换为文本，这就是数据的样子（只是添加一些上下文的小样本）

{＆＃34; business_id＆＃34;：＆＃34; O_X3PGhk3Y5JWVi866qlJg＆＃34;，＆＃34; full_address＆＃34;：＆＃34; 1501 W Bell Rd \ nPhoenix，AZ 85023＆＃34; ，＆＃34;小时＆＃34;：{＆＃34;星期一＆＃34;：{＆＃34;关闭＆＃34;：＆＃34; 18：00＆＃34;，＆＃34;打开＆＃34;：＆＃34; 11：00＆＃34;}，＆＃34;星期二＆＃34;：{＆＃34;关闭＆＃34;：＆＃34; 18：00＆＃34;，＆＃34;打开＆＃34; ：＆＃34; 11：00＆＃34;}，＆＃34;星期五＆＃34;：{＆＃34;关闭＆＃34;：＆＃34; 18：00＆＃34;，＆＃34;打开＆＃34 ;：＆＃34; 11：00＆＃34;}，＆＃34;星期三＆＃34;：{＆＃34;关闭＆＃34;：＆＃34; 18:00＆＃34;，＆＃34;打开＆＃ 34;：＆＃34; 11：00＆＃34;}，＆＃34;星期四＆＃34;：{＆＃34;关闭＆＃34;：＆＃34; 18：00＆＃34;，＆＃34;打开＆＃34;：＆＃34; 11：00＆＃34;}，＆＃34;星期天＆＃34;：{＆＃34;关闭＆＃34;：＆＃34; 18：00＆＃34;，＆＃34;打开＆＃34;：＆＃34; 11：00＆＃34;}，＆＃34;星期六＆＃34;：{＆＃34;关闭＆＃34;：＆＃34; 18：00＆＃34;，＆＃34 ;打开＆＃34;：＆＃34; 11：00＆＃34;}}，＆＃34;打开＆＃34;：真实，＆＃34;类别＆＃34;：[＆＃34;积极生活＆＃34;，＆＃34;艺术＆amp;娱乐＆＃34;，＆＃34;体育场馆＆amp; Arenas＆＃34;，＆＃34;赛马＆＃34;]，＆＃34;城市＆＃34;：＆＃34;凤凰城＆＃34;，＆＃34; review_count＆＃34;：29，＆＃34;名称＆＃34;：＆＃34;草坪天堂赛马场＆＃34;，＆＃34;街区＆＃34;：[]，＆＃34;经度＆＃34;：-112.0923293，＆＃34;州＆＃34;：＆＃34; AZ＆＃34;，＆＃34;明星＆＃34;：4.0，＆＃34;纬度＆＃34;：33.638572699999997，＆＃34;属性＆＃34;：{＆＃34;外卖＆＃34; ：false，＆＃34; Wi-Fi＆＃34;：＆＃34;免费＆＃34;，＆＃34; Good For＆＃34;：{＆＃34;甜点＆＃34;：false，＆＃34; latenight＆＃34;：false，＆＃34;午餐＆＃34;：false，＆＃34;晚餐＆＃34;：false，＆＃34;早午餐＆＃34;：false，＆＃34;早餐＆＃34;：false} ，＆＃34;噪音水平＆＃34;：＆＃34;平均＆＃34;，＆＃34;采取预订＆＃34;：是，＆＃34;有电视＆＃34;：是，＆＃34;交付＆＃ 34;：假，＆＃34;氛围＆＃34;：{＆＃34;浪漫＆＃34;：假，＆＃34;亲密＆＃34;：假，＆＃34;旅游观光＆＃34;：假，＆＃ 34;时髦＆＃34;：假，＆＃34;潜水＆＃34;：假，＆＃34;优雅＆＃34;：假，＆＃34;流行＆＃34;：假，＆＃34;高档＆＃34; ：false，＆＃34; casual＆＃34;：false}，＆＃34; Parking＆＃34;：{＆＃34; garage＆＃34;：false，＆＃34; street＆＃34;：false，＆＃34; validated＆＃34;：false，＆＃34; lot＆＃34;：true，＆＃34; valet＆＃34;：true}，＆＃34;轮椅无障碍＆＃34;：真实，＆＃34;户外座位＆＃34;：真实，＆＃34;服装＆＃34;：＆＃34;休闲＆＃34;，＆＃34;酒精＆＃34;：＆＃34; full_bar＆＃34;，＆＃34; Waiter Service＆＃34;：true，＆＃34;接受信用卡＆＃34;：true，＆＃34;对孩子有益＆＃34;：false，＆＃34; Good For Groups＆＃34;：是的，＆＃34;价格范围＆＃34;：2}，＆＃34;输入＆＃34;：＆＃34;业务＆＃34;}

我在使用初始代码时遇到了一些问题：

import json
data=json.load(open('yelp_academic_dataset_user.json'))

我收到以下错误。

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-20-fbf46968052d> in <module>()
      1 
      2 import json
----> 3 data=json.load(open('yelp_academic_dataset_user.json'))

C:\Users\ankit.gadodia\AppData\Local\Continuum\Anaconda\lib\json\__init__.pyc in load(fp, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    288         parse_float=parse_float, parse_int=parse_int,
    289         parse_constant=parse_constant, object_pairs_hook=object_pairs_hook,
--> 290         **kw)
    291 
    292 

C:\Users\ankit.gadodia\AppData\Local\Continuum\Anaconda\lib\json\__init__.pyc in loads(s, encoding, cls, object_hook, parse_float, parse_int, parse_constant, object_pairs_hook, **kw)
    336             parse_int is None and parse_float is None and
    337             parse_constant is None and object_pairs_hook is None and not kw):
--> 338         return _default_decoder.decode(s)
    339     if cls is None:
    340         cls = JSONDecoder

C:\Users\ankit.gadodia\AppData\Local\Continuum\Anaconda\lib\json\decoder.pyc in decode(self, s, _w)
    367         end = _w(s, end).end()
    368         if end != len(s):
--> 369             raise ValueError(errmsg("Extra data", s, end, len(s)))
    370         return obj
    371 

ValueError: Extra data: line 2 column 1 - line 70818 column 1 (char 259 - 26982351)

有人可以解释我如何纠正这个或其他一些方式开始。到目前为止我见过的所有其他示例都涉及json.load函数。我甚至尝试过file.read（）函数，但这也是一个错误

Answer 1

这里有两个可能的问题。

首先，在您发布的实际数据中，假设输出中的\n实际上是换行符，而不是后跟n的反斜杠，这是无效的JSON，并且您已经可能在输出和输入之间的某处损坏了它。

如果你能回到原始数据，那将是最好的。

如果不能，您可以尝试转义控制字符，例如，通过编码到unicode-escape。对于您现有的示例以及大量现实生活中的数据，这些数据将恢复原始JSON，但有些边缘情况不会。但

如果您的文件足够小以加载到内存中，最简单的方法是：

with open('yelp_academic_dataset_user.json') as f:
    contents = f.read().encode('unicode-escape').decode('ascii')
data = json.loads(contents)

如果您的文件变得庞大，请参阅codecs模块，了解如何在文件前链接编码器和解码器，以便您可以即时转换。

其次，“第2行第1列”听起来很可疑，就像文件中有一个JSON对象流，而不是单个JSON对象。在您向我们展示的示例中看不到此问题，但是您的某些文件可能只有一个JSON对象，而其他文件只有两个或更多。

同样，如果您可以修复数据（例如，使其成为单个JSON数组，而不是单独的对象流），那么这始终是最佳解决方案。

如果没有，则无法使用json.load解析该问题，因为JSON对象流不是JSON对象。您需要做的是使用raw_decode拉出JSON对象，直到完成为止：

with open('yelp_academic_dataset_user.json') as f:
    contents = f.read()
decoder = json.JSONDecoder()
while contents:
    data, idx = decoder.raw_decode(contents)
    contents = contents[idx:]

当然，在这种情况下，您必须使用data循环中的每个for，或将它们累积到某个集合中。

如果您知道每个JSON对象本身都在一行上，您可以做一些更简单（也更高效）的事情：

with open('yelp_academic_dataset_user.json') as f:
    for line in f:
        data = json.loads(line)

但是因为在JSON对象中间有新行是完全合法的（只是不在字符串内部），所以这可能非常脆弱。

将json数据转换为dataframe或csv

1 个答案: