我想根据其他一列中的值为pandas DataFrame添加一列。
import pandas as pd
import numpy as np
Records = 100
df = pd.DataFrame (
{'ID' : range(1, Records + 1),
'Group' : np.random.choice(range(1, 41), Records, replace = True)
}
)
def Age(x):
a = list()
for i in x:
if (i >= 14 and i <= 20) or (i >= 34 and i <= 40):
a.append('65+')
else:
a.append('65-')
return a
df['Age'] = Age(df.Group)
print(df.head(10))
Group ID Age
0 11 1 65-
1 1 2 65-
2 6 3 65-
3 32 4 65-
4 31 5 65-
5 39 6 65+
6 26 7 65-
7 38 8 65+
8 26 9 65-
9 31 10 65-
这可以完成这项工作,但我更喜欢使用lambda函数,但是不能让它工作。或者,如果可能,在创建数据帧时创建Age列。有什么建议吗?
答案 0 :(得分:2)
使用numpy.where
什么是非常快速的矢量化函数:
m = ((df['Group'] >= 14) & (df['Group'] <= 20)) | ((df['Group'] >= 34) & (df['Group'] <= 40))
df['new'] = np.where(m, '65+','65-')
print (df)
Group ID Age new
0 11 1 65- 65-
1 1 2 65- 65-
2 6 3 65- 65-
3 32 4 65- 65-
4 31 5 65- 65-
5 39 6 65+ 65+
6 26 7 65- 65-
7 38 8 65+ 65+
8 26 9 65- 65-
9 31 10 65- 65-
<强>计时强>:
Records = 1000000
In [94]: %timeit df['Age1'] = np.where((df['Group'] >= 14) & (df['Group'] <= 20) | (df['Group'] >= 34) & (df['Group'] <= 40), '65+','65-')
10 loops, best of 3: 123 ms per loop
In [95]: %timeit df['Age2'] = df['Group'].apply(lambda x: '65+' if ((x >= 14 and x <= 20) or (x >= 34 and x <= 40)) else '65-')
1 loop, best of 3: 253 ms per loop
答案 1 :(得分:2)
选项1
重新考虑这个条件
请注意,两个区间都是宽度6
请注意,间隔之间的中点为27
。
cats = np.array(['65-', '65+'])
cond = df.Group.sub(27).abs().pipe(lambda x: x.ge(7) & x.le(13)).astype(int)
df.assign(Age=cats[cond])
Group ID Age
0 11 1 65-
1 1 2 65-
2 6 3 65-
3 32 4 65-
4 31 5 65-
5 39 6 65+
6 26 7 65-
7 38 8 65+
8 26 9 65-
9 31 10 65-
我们可以通过使用底层数组来加快速度。
cats = np.array(['65-', '65+'])
arr1 = np.abs(df.Group.values - 27)
cond = ((arr1 >= 7) & (arr1 <= 13)).astype(int)
df.assign(Age=cats[cond])
Group ID Age
0 11 1 65-
1 1 2 65-
2 6 3 65-
3 32 4 65-
4 31 5 65-
5 39 6 65+
6 26 7 65-
7 38 8 65+
8 26 9 65-
9 31 10 65-
选项2
使用np.searchsorted
使用[13, 20, 33, 40]
的整数断点。 searchsorted
会告诉我们每个Group
值的下降位置,然后我们会切割一系列标签,以便为我们提供所需内容。
b = np.array([13, 20, 33, 40])
c = np.array(['65-', '65+', '65-', '65+', '65-'])
df.assign(Age=c[np.searchsorted(b, df.Group.values)])
Group ID Age
0 11 1 65-
1 1 2 65-
2 6 3 65-
3 32 4 65-
4 31 5 65-
5 39 6 65+
6 26 7 65-
7 38 8 65+
8 26 9 65-
9 31 10 65-
答案 2 :(得分:1)
申请df.Group
系列
Records = 100
df = pd.DataFrame (
{'ID' : range(1, Records + 1),
'Group' : np.random.choice(range(1, 41), Records, replace = True)
}
)
#Here is the apply:
df['Age'] = df['Group'].apply(lambda x: '65+' if ((x >= 14 and x <= 20) or
(x >= 34 and x <= 40)) else '65-')
print(df.head())
结果:
Group ID Age
0 3 1 65-
1 25 2 65-
2 6 3 65-
3 23 4 65-
4 20 5 65+
...