我有一个包含100万行的大型.xlsx文件。我不想一次打开整个文件。我想知道我是否可以读取一大块文件,处理它然后读取下一个块? (我更喜欢用熊猫。)
答案 0 :(得分:2)
是。熊猫支持分块阅读。您可以像这样阅读excel文件。
import pandas as pd
xl = pd.ExcelFile("myfile.xlsx")
for sheet_name in xl.sheet_names:
reader = xl.parse(sheet_name, chunksize=1000):
for chunk in reader:
#parse chunk here
答案 1 :(得分:1)
您可以使用read_excel()方法:
chunksize = 10**5
for chunk in pd.read_excel(filename, chunksize=chunksize):
# process `chunk` DF
如果您的Excel文件有多个工作表,请查看bpachev's解决方案