Question

我有一个包含100万行的大型.xlsx文件。我不想一次打开整个文件。我想知道我是否可以读取一大块文件，处理它然后读取下一个块？（我更喜欢用熊猫。）

Answer 1

是。熊猫支持分块阅读。您可以像这样阅读excel文件。

import pandas as pd
xl = pd.ExcelFile("myfile.xlsx")
for sheet_name in xl.sheet_names:
  reader = xl.parse(sheet_name, chunksize=1000):
  for chunk in reader:
    #parse chunk here

Answer 2

您可以使用read_excel()方法：

chunksize = 10**5
for chunk in pd.read_excel(filename, chunksize=chunksize):
    # process `chunk` DF

如果您的Excel文件有多个工作表，请查看bpachev's解决方案

使用python读取大型xlsx文件的一部分

2 个答案: