我有两个csv文件,每个文件有30到4万条记录。 我将csv文件加载到两个相应的数据帧中。 现在,我想在数据帧上而不是在sqlite中执行此sql操作:更新table1设置column1 =(从table2中选择column1,其中table1.Id == table2.Id),column2 =(从table2中选择column2,其中table1.Id == table2.Id),其中column3 ='some_value';
我尝试通过4个步骤对数据框执行更新: 1.在通用ID上合并数据帧 2.从第3列具有“ some_value”的数据框中获取ID 3.根据在第二步中接收到的ID过滤第一步的数据帧。 4.使用lambda函数插入与ID匹配的数据框中。
我只想了解有关此方法的其他观点,以及是否有更好的解决方案。重要的一件事是数据帧的大小很大,所以我觉得使用sqlite会比pandas更好,因为它可以在单个查询中提供结果,并且速度更快。 我应该使用sqlite还是有更好的方法对数据框执行此操作? 任何对此的意见将不胜感激。谢谢。