修复非常大的json文件的格式

时间:2014-12-22 16:22:38

标签: python json large-files

我有一个1.5G的JSON文件。它应该包含一个对象数组,但是在数组中的最后一个对象之后还有一个额外的逗号。

selah@wwbp:~$ tail -n4 /data/selah/diabetes_tweets.json 
    "type": "retweet:reply", 
    "citation_url": "http://twitter.com/Garthicus/status/5903085804"
},
]

我尝试使用VI和其他一些文本编辑进行编辑,但它们都冻结了。是否有一种简单的编程方法可以用python删除这个逗号?

2 个答案:

答案 0 :(得分:1)

使用此功能删除最后两行head -n -2 myfile.txt > myfile_fix.txt然后echo '}' >> myfile_fix.txt echo ']' >> myfile_fix.txt以添加您需要的内容。

答案 1 :(得分:0)

您可以使用以下Node.js脚本解决此问题:

var fs = require('fs');
var data = fs.readFileSync(process.argv[2], 'utf-8');
console.log(JSON.stringify(eval("(" + data + ")")));

node fix.js your.json