Python Pandas:从块

时间:2016-09-23 21:30:04

标签: python python-3.x pandas

数据集按块读取,因为它很大。 id是第一列,我想将它们存储在数组结构中。到目前为止它没有用。看起来像这样

tf = pd.read_csv('data.csv', chunksize=chunksize)
for chunk in tf:
    here I wanna store the ids chunk["Id"] in an array

我该怎么做?

1 个答案:

答案 0 :(得分:1)

IIUC你可以这样做:

ids = pd.DataFrame()
tf = pd.read_csv('data.csv', chunksize=chunksize)
for chunk in tf:
    ids = pd.concat([ids, chunk['Id']], ignore_index=True)

您始终可以访问ids系列作为NumPy数组:

ids.values