我有一个大型的抓取工具,每次它刮取一个网站时,它会覆盖整个过程并将json转储到文件中,并将实际的json(作为字典)保留在过程的内存中(即它先不加载然后转储)。
以下是我目前使用的方法的参考:
records['records']['record'].append(record) # record is a large sub-json
with open(JSON_FILE, "w") as f:
json.dump(records, f, indent=4)
我一直想知道,什么是更省时的-将json文件加载到进程中,然后更改json并转储到文件中,或执行我已做的事情(即将json保留在内存,更改它,然后覆盖文件)? 有更好的方法吗?