Question

我有一个相对较大的excel文件（.xlsx），其中一张纸包含超过100k +行，跨越350+列，文件大小总计83 MB。

我使用pandas方法read_excel()来加载文件，但是平均花费了将近5分钟才能完成所有工作，并且占用了800 MB以上的内存。

excel_file = '/path/to/an_excel_file'
try:
    data = pd.read_excel(excel_path, engine='xlrd')
    process_data_further(data)
except FileNotFoundError:
    sys.exit(1)

如上所述，这是可行的，但是我发现它相对较慢且效率低下。

有什么想法可以优化文件的导入吗？

Answer 1

编辑：很抱歉，我以不同的方式阅读。您想阅读XLSX。

Faster way to read Excel files to pandas dataframe https://www.giacomodebidda.com/reading-large-excel-files-with-pandas/

我希望这会有所帮助。

********************************以下用于读取CSV的************** **

您可以在读取时使用chunksize参数。除熊猫外，您还可以使用Dask，Koalas，Voex和Modin来加快过程。我个人更喜欢VOEX，因为它会使用笔记本电脑上的可用RAM。

请参考此处的链接chunksize

加快将大的excel文件导入到熊猫数据框

1 个答案: