我正在做一个大学项目,我要删除每个包含200万行以上的zip文件(30+),将它们读入pandas数据框,清理数据,然后我必须使用psycopg2将它们插入到postgresql db中
我的问题是最小文件占用的时间过长,超过20分钟。我读到,复制是最佳性能,但我的问题是:
文件的每一行将分为3个表:
表a,b,c
表C有2个fk,一个是表A的,另一个是B的,我还没有弄清楚如何做副本,考虑到fk并保证一致性,它似乎比常规插入具有更好的性能。在数据库上。
任何性能改进都将非常有帮助。
目前,我正在执行最基本的步骤,插入行表A fetchone以获取ID(与表B相同),然后插入具有A和B中的ID的C