好的,所以我有这么大的数据集数百万行,我在使用loc ==过滤数据时遇到了麻烦,我怀疑是因为它的大小,所以我有一个想法,我想我会做一个多索引pivot_table然后过滤较小的数据透视表。但显然当我进行支点时,我会得到这样的结果:
foo 2011 354
2013 659
2014 655
bar 2012 645
2013 665
我可以过滤这个,除了我在foo和bar下有空格?如果这些是nans我可以填充nans,但这些是空格,我相信我以前见过这个,但我不记得怎么做,如何填充foo和条下的空间?一旦我把它变成了一个完整的数据框,我可以对此进行过滤吗?
编辑我不确定为什么我的原始代码不会运行,看起来很简单?
df2 = df1.loc[Mort_Data['COD_type'].isin(['T','U','V','W','Y','X'])]
答案 0 :(得分:0)
foo下的所有空格实际上都是foo,而bar也是如此。它只是一种在多索引时易于可视化的功能。如果你使用reset_index(),你会看到我怀疑是真的。
至于你的另一个问题。数百万行并不是那么大,但如果由于数据的大小确实存在问题,那么您可以批量执行。有很多选择。