我有一个数据框,并想针对该类别的频率创建自定义功能。如何使用featuretools自定义原语实现这一目标?
在熊猫中,这看起来像以下内容:
df = pd.DataFrame({'category': ['a' ,'b', 'a']})
df['frequency' ] = df.groupby('category')['category'].transform('count')
df
| | category | frequency |
|---|:--------:|----------:|
| 0 | a | 2 |
| 1 | b | 1 |
| 2 | a | 2 |
这似乎是the question here的更一般的实例,可能对新手有帮助。
注意:这是专门针对Featuretools库和自定义基元的,而不是关于计算数据帧中类别频率的。