我有一个基本数据集,其中一个变量表示加利福尼亚的一个县。这是一个连续变量,1
是字母的第一个县,58
是字母的最后一个县。
例如:
ID County
1 1
2 58
3 5
4 43
5 2
6 19
7 42
8 2
9 1
10 14
在Stata中,我将执行以下操作:
label define county_label 1 "Alameda" 2 "Alpine" 3 "Amador" 58 "Yuba"
label val county county_label
接下来,使用tabulate
命令获得以下输出:
ID County
1 Alameda
2 Yuba
3 Calaveras
4 Santa Clara
5 Alpine
6 Los Angeles
7 Santa Barbara
8 Alpine
9 Alameda
10 Inyo
在Python中,我首先尝试创建字典:
county_dictionary = {1 : 'Alameda', 2 : 'Alpine', ...... 58 : 'Yuba'}
但是,在此之后我完全迷失了;我什至不确定是否有必要。
如何在Python中获得相同的输出?
答案 0 :(得分:0)
尝试一下:
df['County'] = df.apply(lambda x: county_dictionary.get(x['County'], 'Unknown'), axis=1)