大数据集的大熊猫:数百万条记录

时间:2015-06-16 20:31:40

标签: python-2.7 pandas chunking

我在stata中有一个大约580万行(记录)的数据集。

过去几个月我一直在学习大熊猫,并且非常享受它的能力。大熊猫在这种情况下仍然有用吗?

我无法将数据集读入数据集。我目前正在考虑分块... chunks = pd.read_stata('data.dta', chunksize = 100000, columns = ['year','race', 'app'])

还有更好的方法吗?我希望能做到这样的事情:

df = pd.read_stata('data.dta')
data = df.groupby(['year', 'race']).agg(sum)
data.to_csv('data.csv')

但这不起作用,因为(我认为)数据集太大了。错误:OverflowError: Python int too large to convert to C long

感谢。干杯

0 个答案:

没有答案