使用python读取大型xlsx文件的一部分

时间:2016-07-27 21:19:34

标签: python pandas

我有一个包含100万行的大型.xlsx文件。我不想一次打开整个文件。我想知道我是否可以读取一大块文件,处理它然后读取下一个块? (我更喜欢用熊猫。)

2 个答案:

答案 0 :(得分:2)

是。熊猫支持分块阅读。您可以像这样阅读excel文件。

import pandas as pd
xl = pd.ExcelFile("myfile.xlsx")
for sheet_name in xl.sheet_names:
  reader = xl.parse(sheet_name, chunksize=1000):
  for chunk in reader:
    #parse chunk here

答案 1 :(得分:1)

您可以使用read_excel()方法:

chunksize = 10**5
for chunk in pd.read_excel(filename, chunksize=chunksize):
    # process `chunk` DF

如果您的Excel文件有多个工作表,请查看bpachev's解决方案