我想知道pandas如何处理python中的内存使用情况?如果我将pandas数据帧查询结果设置为变量,我更想知道如何处理内存。在引擎盖后面,它只是原始数据帧对象的一些内存地址,还是我会克隆所有数据?
我害怕内存膨胀失控但我有一个非唯一字段的数据框,我无法将其编入索引。使用df [(df [''] == x)&等命令查询和绘制数据时,速度极慢。 (df [''] == y)]。
(它们都是行中的整数值。它们也不是唯一的,因此它返回多个结果。)
无论如何我对熊猫都很陌生,但是对于如何处理我正在寻找两个条件匹配的值数组的情况的任何见解都会很棒。现在我正在使用O(n)算法循环并索引它,因为当我需要快速访问数据时,甚至比搜索查询运行得更快。在一个只有6,000行的数据集上观看我的系统需要20秒才有预感。