Python比较关系数据库中两个表之间的数百万行和数百列

时间:2019-05-14 11:08:44

标签: python python-3.x pandas pandasql

当前,我们的系统处于实时验证阶段。因此,我们需要检查生产中填充的表集是否与沙盒(测试)中填充的表匹配。目前,我们已经为每个表比较编写了一个查询,然后在sql客户端中运行它以进行检查。将来将有更多表可供检查。我想到了通过将表名称提供给一个函数来自动化python中的过程,该函数随后可以将两个表加载到数据帧中,然后进行比较以突出显示差异。

有些表每天有270万行,并且有400列。当我尝试将数据(2.7 m行* 400列)加载到数据帧中时,由于在Jupyter中运行查询而内存不足,而我只有20 GB的限制,因此我收到一条错误消息。这里有什么选择?熊猫数据框是比较此大型数据集的唯一方法吗?还是有其他库可以达到相同的目的?

1 个答案:

答案 0 :(得分:0)

对于处理此类数据,我建议您使用Hadoop之类的东西,而不是pandas / python。这不是一个很好的答案,但我还不能发表评论。