我有一个包含多个工作表的Excel工作簿。有些包含大量数据(例如6000000个单元格),有些则没有。我正在尝试使用以下代码行来读取其中一张明显较小的工作表,一个简单的2列-500行工作表:
df = pd.read_excel('C:/Data.xlsx', sheetname='Contracts')
但是,此读取需要花费大量时间,而Excel中独立的工作表却不需要。有这个原因吗?
答案 0 :(得分:1)
我试图看一下API,以帮助该函数如何处理它,但没有提出任何重要建议。注意事项:
1)假设您在病房上使用0.21.0,而您想使用sheet_name代替工作表名称
2)根据:https://realpython.com/working-with-large-excel-files-in-pandas/,熊猫进程的速度与您的系统内存直接相关。
3)read_excel函数打开整个excel文件,然后选择特定的工作表,使您也可以加载那些超长工作表。您可以通过将简短说明制作成单独的excel文件,然后在新文件上运行read_excel来进行测试。
希望这会有所帮助