这个问题很可能是非常愚蠢的,但是我伤害了我的大脑,弄清楚要做什么
有一个pd.dataframe
个N列。我需要选择一些列,引用列的索引,然后将所有值转换为数字并重写我dataframe
我已经通过列名引用(例如df['a'] = pd.to_numeric(df['a'])
但是仍然使用索引(例如df[1] = pd.to_numeric(df[1])
在这种情况下dataframe
列引用的正确方法是什么? (python 2.7)
答案 0 :(得分:3)
您可以使用ix
选择列,然后使用apply
to_numeric
:
import pandas as pd
df = pd.DataFrame({1:['1','2','3'],
2:[4,5,6],
3:[7,8,9],
4:['1','3','5'],
5:[5,3,6],
6:['7','4','3']})
print (df)
1 2 3 4 5 6
0 1 4 7 1 5 7
1 2 5 8 3 3 4
2 3 6 9 5 6 3
print (df.dtypes)
1 object
2 int64
3 int64
4 object
5 int64
6 object
dtype: object
print (df.columns)
Int64Index([1, 2, 3, 4, 5, 6], dtype='int64')
cols = [1,4,6]
df.ix[:, cols] = df.ix[:, cols].apply(pd.to_numeric)
print (df)
1 2 3 4 5 6
0 1 4 7 1 5 7
1 2 5 8 3 3 4
2 3 6 9 5 6 3
print (df.dtypes)
1 int64
2 int64
3 int64
4 int64
5 int64
6 int64
dtype: object
如果列是strings
,而不是int
(但看起来像int
),请将''
添加到list
cols
中的数字:< / p>
import pandas as pd
df = pd.DataFrame({'1':['1','2','3'],
'2':[4,5,6],
'3':[7,8,9],
'4':['1','3','5'],
'5':[5,3,6],
'6':['7','4','3']})
#print (df)
#print (df.dtypes)
print (df.columns)
Index(['1', '2', '3', '4', '5', '6'], dtype='object')
#add `''`
cols = ['1','4','6']
#1. ix: supports mixed integer and label based access
df.ix[:, cols] = df.ix[:, cols].apply(pd.to_numeric)
#2. loc: only label based access
# df.loc[:, cols] = df.loc[:, cols].apply(pd.to_numeric)
#3. iloc: for index based access
# cols = [i for i in range(len(df.columns))]
# df.iloc[:, cols].apply(pd.to_numeric)
print (df)
1 2 3 4 5 6
0 1 4 7 1 5 7
1 2 5 8 3 3 4
2 3 6 9 5 6 3
print (df.dtypes)
1 int64
2 int64
3 int64
4 int64
5 int64
6 int64
dtype: object
答案 1 :(得分:0)