Question

我有一个非常大的JSON文件，其中包含上个月的reddit评论（~30 GB），这个评论太大而无法存储在RAM中并进行分析。我希望有一种方法可以在进行云计算之前对数据的随机子集进行采样以进行分析。

我使用以下代码阅读了一定数量的评论：

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import json
from IPython.display import display
%matplotlib inline

r_data = []
with open('reddit_1_28_2018.txt') as f:
    counter = 0
    for line in f:
        r_data.append(json.loads(line))
        counter += 1
        if counter % 500000 == 0:
            print ("Processed %d comments\n" % (counter))
        if counter >= 2000000: break

print ("Data downloaded!")

可以在此处找到数据集的示例：https://files.pushshift.io/reddit/comments/sample_data.json

h / t @deliriouslettuce

Python：读取json文件的随机样本

0 个答案: