我有一个相对较大的excel文件(.xlsx),其中一张纸包含超过100k +行,跨越350+列,文件大小总计83 MB。
我使用pandas
方法read_excel()
来加载文件,但是平均花费了将近5分钟才能完成所有工作,并且占用了800 MB以上的内存。
excel_file = '/path/to/an_excel_file'
try:
data = pd.read_excel(excel_path, engine='xlrd')
process_data_further(data)
except FileNotFoundError:
sys.exit(1)
如上所述,这是可行的,但是我发现它相对较慢且效率低下。
有什么想法可以优化文件的导入吗?
答案 0 :(得分:0)
编辑:很抱歉,我以不同的方式阅读。您想阅读XLSX。
Faster way to read Excel files to pandas dataframe https://www.giacomodebidda.com/reading-large-excel-files-with-pandas/
我希望这会有所帮助。
********************************以下用于读取CSV的************** **
您可以在读取时使用chunksize参数。除熊猫外,您还可以使用Dask,Koalas,Voex和Modin来加快过程。我个人更喜欢VOEX,因为它会使用笔记本电脑上的可用RAM。
请参考此处的链接chunksize