在Python中加载Json文件的一些问题

时间:2013-04-28 00:11:18

标签: python json

我是一个新的pythoner,现在我想读一个大小为250MB的Json文件,这对我的记忆来说非常大。该文件包含数千组用户数据。

一组用户数据的示例如下:

{"votes": {"funny": 0, "useful": 0, "cool": 0}, "user_id": "0a2KyEL0d3Yb1V6aivbIuQ", "review_id": "IjZ33sJrzXqU-0X6U8NwyA", "stars": 5, "date": "2011-07-27", "text": "I have no idea why some people give bad reviews about this place. It goes to show you, you can please everyone. That goes to show you that  you have to try these things yourself because all these bad reviewers have some serious issues.", "type": "review", "business_id": "ZRJwVLyzEJq1VAihDhYiow"}

我的目标是根据“Text”标签为每个用户建立一个单词模型包。所以我目前的想法是加载这个大文件。但我认为我的记忆不能支持这种工作量。那么这个任务是否有好主意,或者我们是否可以将文件切割成每个文件对应每个用户数据的文件?

1 个答案:

答案 0 :(得分:0)

我建议您将用户数据保存在couchbase或其他数据库中,然后换行lru_cache

原因在于,由于无法将所有数据保存在内存中,因此您需要在磁盘上保留一些数据。一旦你必须处理内存中哪些数据与磁盘上的数据,那么最好使用数据库来为你做这些。