我有一个非常大的JSON文件,其中包含上个月的reddit评论(~30 GB),这个评论太大而无法存储在RAM中并进行分析。我希望有一种方法可以在进行云计算之前对数据的随机子集进行采样以进行分析。
我使用以下代码阅读了一定数量的评论:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import json
from IPython.display import display
%matplotlib inline
r_data = []
with open('reddit_1_28_2018.txt') as f:
counter = 0
for line in f:
r_data.append(json.loads(line))
counter += 1
if counter % 500000 == 0:
print ("Processed %d comments\n" % (counter))
if counter >= 2000000: break
print ("Data downloaded!")
可以在此处找到数据集的示例:https://files.pushshift.io/reddit/comments/sample_data.json
h / t @deliriouslettuce