通过Dict列表创建熊猫DataFrame失败
AttributeError:'NoneType'对象没有属性'keys'
我有超过4000K json文件,每个文件包含以下格式的json行-
{"title": "abcWebhome", "creator": "demo", "url": "https://demo.demo.xyz/bin/bin/Gamma/", "body": "#REDIRECT [[Gamma]]", "display_title": "Gamma", "last_modifier": "user1", "modification_date": 1450340923000, "creation_date": 1450340923000, "size": "262", "view_count": 0, "category_list": [], "group_list": []}
我需要将这些文件合并为10个json文件,我想为这些文件处理一定数量的文件并将数据附加到列表中,创建一个pandas dataFrame并使用df.to_json将其写入json。我在约30个文件上测试了代码,效果很好。
file_list = glob.glob("*.json")
allFilesDict = {v:k for v, k in enumerate(file_list, 1)}
data = []
for k,v in allFilesDict.items():
if 1 <= k <= 400000:
with open(v, 'r') as d:
data.append(json.load(d))
df = pd.DataFrame(data)
df.to_json(r'/home/user1/merge/output_1.json', orient='records')
使用以上代码,df创建失败--
AttributeError:'NoneType'对象没有属性'keys'
如何确定错误原因?
可以采用任何其他方法来处理如此大的文件并将其合并为10个文件。