标签: python file memory io pandas
通常当我想将文件的内容放在数据框中时,我会在文件的行上进行循环,将这些行拆分为字段并使用此值指定字典。读完一行后,我将字典附加到列表中(因此,列表中的字典数等于文件中的行数)。然后我使用字典列表来构建数据框。
不幸的是,这种方法对于大文件失败了。在600万行文件后,我的python脚本变得非常慢,我的Ubuntu挂起。
我认为这是因为将一个新元素附加到一个巨大的列表变得很慢并且使用了大量内存。有没有更好的方法将信息从文件提取到数据框?