转换为“严格” JSON

时间:2019-03-05 15:36:22

标签: python json

我有一个JSON文件,创建者说这不是“严格” JSON,并提供了python代码将其转换为严格JSON。我是python新手,并不断收到错误消息。

JSON示例:

{'asin': '0078764343', 'description': 'Brand new sealed!', 'price': 37.98, 'imUrl': 'http://ecx.images-amazon.com/images/I/513h6dPbwLL._SY300_.jpg', 'related': {'also_bought': ['B000TI836G', 'B003Q53VZC', 'B00EFFW0HC', 'B003VWGBC0', 'B003O6G5TW', 'B0037LTTRO', 'B002I098JE', 'B008OQTS0U', 'B005EVEODY', 'B008B3AVNE', 'B000PE0HBS', 'B00354NAYG', 'B0050SYPV2', 'B00503E8S2', 'B0050SY77E', 'B0022TNO7S', 'B0056WJA30', 'B0023CBY4E', 'B002SRSQ72', 'B005EZ5GQY', 'B004XACA60', 'B00273Z9WM', 'B004HX1QFY', 'B002I0K50U'], 'bought_together': ['B002I098JE'], 'buy_after_viewing': ['B0050SY5BM', 'B000TI836G', 'B0037LTTRO', 'B002I098JE']}, 'salesRank': {'Video Games': 28655}, 'categories': [['Video Games', 'Xbox 360', 'Games']]}

Python代码:

import json
import gzip
def parse(file_path=r"c:\Users\kiero\PycharmProjects\untitled\source\reviews_Video_Games.json.gz"):
  g = gzip.open(file_path, 'r')
  for l in g:
    yield json.dumps(eval(l))


  f = open("C:\\Users\\kiero\\PycharmProjects\\untitled\\source\\reviews_Video_Games.json.gz",'w')
  for l in parse("C:\\Users\\kiero\\PycharmProjects\\untitled\\source\\reviews_Video_Games.json.gz"):
    f.write(l + '\n')

此过程不断进行,无需编辑任何文件。此外,该脚本的运行时间不到一秒钟。没有错误消息。 任何帮助将不胜感激。

1 个答案:

答案 0 :(得分:0)

有很多问题,首先是对从其他人那里获得的数据使用eval是巨大的安全漏洞。

第二个原因是您的代码缩进了错误-从f = open(开始的调用parse的部分不应缩进,当前方式是parse的一部分,并且函数永远不会被调用(因此什么也不会发生)。

第三,打开与下一行用于读取的文件完全相同(使用, "w")。但是打开要写入的文件将其清空。所以没有数据,那里的东西被破坏了。

第四,打开的要写入文件的文件名为“ .gz”,但会以文本形式写入,因此结果永远不会是gzip文件。

真实代码如下:

import ast, gzip, json

INFILE = 'c://path/to/infile.gz'  # Gzip file
OUTFILE = 'c://path/to/other/file/out.json'  # Text file with generated JSON

in_f = gzip.open(INFILE)
out_f = open(OUTFILE, 'w')

for line in in_f:
    data = ast.literal_eval(line)  # Assuming the line is a valid Python literal
    out_f.write(json.dumps(data) + '\n')

in_f.close()
out_f.close()

第五,最终结果每行仍然会有一个数据对象,因此整个文件仍然不是有效的JSON-JSON字符串表示一个对象。每行都是有效的JSON。