我正在使用Python(3.7)和Panda进行Web搜索公司数据,然后将每个结果写入输出.xlsx文件。每次迭代后,输出文件都会不断更新。我正在具有8 GB RAM的计算机上执行此操作。
但是,我注意到,当运行较大的数据集(+ 12k行)时,输出文件的大小从2000 Kb减小到0 Kb,然后在移至下一行时又回到2000 Kb。
问题是,当输出文件恰好为0 Kb时,如果我停止脚本(或发生崩溃),文件将损坏,我将丢失所有内容。
我不确定要采用哪种解决方案。我应该在read_excel中使用某个设置吗?还是需要在to_excel上做一些事情?
我是这里的新手,随时随地学习,对您的帮助将不胜感激。
Tks, 埃尔姆
我看过有关“腌制”的讨论,并且让熊猫在“块”中读取了文件。但是尚不清楚是否可以解决我的问题。
更新我被误认为该问题仅限于大文件。不管大小,xlsx文件的大小都会跳到0 Kb。使用较大的文件时,它更加明显。我的问题仍然是:如果我的脚本在最后一次写入之前停止,并且输出文件的当前阶段已降至0 Kb,我将丢失所有先前写入的数据。