使用较小的数据集时,我似乎没有使用类似以下内容的问题:
df=df[df.Column_Name !='Some Value I want to sort by']
然后,在该计划的后期:
df=df[df.Another_Column_Name != 'Something else I want to sort by']
并用于将数据集过滤到某个数据子集。但是,当我有更大的数据集时,这变得不可靠。没有任何警告,我认为发生的事情是我必须在某些数据视图上运行而不是实际更改数据。
执行此操作的正确方法是使用.copy()
命令确保我使用此问题来避免此问题。
df=df[df.Column_Name !='Some Value I want to sort by'].copy()
或者我应该以不同的方式消除行。显然这浪费了记忆。我不想使用for循环,因为这会减慢一切。有没有一种简单的方法可以了解数据对象使用了多少内存?