简而言之......我有一个Python Pandas数据框,使用'read_table'从Excel文件读入。我想从数据中保留一小部分系列,并清除其余部分。我知道我可以使用'del data ['SeriesName']'逐个删除我不想要的东西,但我宁愿做的是指定要保留的内容而不是指定要删除的内容。
如果最简单的答案是将现有数据框复制到仅包含我想要的系列的新数据框中,然后完整地删除现有框架,我会对该解决方案感到满意......但如果是确实是最好的方式,有人可以引导我完成它吗?
TIA ......我是熊猫新手。 :)
答案 0 :(得分:36)
您可以使用DataFrame
drop
功能删除列。您必须传递axis=1
选项才能处理列而不是行。请注意,它会返回一个副本,因此您必须将结果分配给新的DataFrame
:
In [1]: from pandas import *
In [2]: df = DataFrame(dict(x=[0,0,1,0,1], y=[1,0,1,1,0], z=[0,0,1,0,1]))
In [3]: df
Out[3]:
x y z
0 0 1 0
1 0 0 0
2 1 1 1
3 0 1 0
4 1 0 1
In [4]: df = df.drop(['x','y'], axis=1)
In [5]: df
Out[5]:
z
0 0
1 0
2 1
3 0
4 1
答案 1 :(得分:15)
基本上与Zelazny7的答案相同 - 只是指定要保留的内容:
In [68]: df
Out[68]:
x y z
0 0 1 0
1 0 0 0
2 1 1 1
3 0 1 0
4 1 0 1
In [70]: df = df[['x','z']]
In [71]: df
Out[71]:
x z
0 0 0
1 0 0
2 1 1
3 0 0
4 1 1
您可以通过索引/切片到Dataframe.columns
对象来指定大量列
type(pandas.Index)
的此对象可以被视为dict
列标签(具有一些扩展功能)。
见上述例子的扩展:
In [4]: df.columns
Out[4]: Index([x, y, z], dtype=object)
In [5]: df[df.columns[1:]]
Out[5]:
y z
0 1 0
1 0 0
2 1 1
3 1 0
4 0 1
In [7]: df.drop(df.columns[1:], axis=1)
Out[7]:
x
0 0
1 0
2 1
3 0
4 1
答案 2 :(得分:0)
您还可以指定要与usecols
中的pandas.read_table
选项保持一致的列列表。这也加快了加载过程。