加快将大的excel文件导入到熊猫数据框

时间:2019-12-04 11:20:29

标签: python excel pandas

我有一个相对较大的excel文件(.xlsx),其中一张纸包含超过100k +行,跨越350+列,文件大小总计83 MB。

我使用pandas方法read_excel()来加载文件,但是平均花费了将近5分钟才能完成所有工作,并且占用了800 MB以上的内存。

excel_file = '/path/to/an_excel_file'
try:
    data = pd.read_excel(excel_path, engine='xlrd')
    process_data_further(data)
except FileNotFoundError:
    sys.exit(1)

如上所述,这是可行的,但是我发现它相对较慢且效率低下。

有什么想法可以优化文件的导入吗?

1 个答案:

答案 0 :(得分:0)

编辑:很抱歉,我以不同的方式阅读。您想阅读XLSX。

Faster way to read Excel files to pandas dataframe https://www.giacomodebidda.com/reading-large-excel-files-with-pandas/

我希望这会有所帮助。

********************************以下用于读取CSV的************** **

您可以在读取时使用chunksize参数。除熊猫外,您还可以使用Dask,Koalas,Voex和Modin来加快过程。我个人更喜欢VOEX,因为它会使用笔记本电脑上的可用RAM。

请参考此处的链接chunksize