对于回归,我想从(许多)右侧变量(它们是相互作用)中减去特定组的均值。
没有组特异性,这很容易。
y, X = dmatrices('lhs ~ center(x1 * k1)', df)
我该如何使用针对特定群体的方式来做到这一点?问题是,右侧包含许多我不能天真的在前期创建的交互项。
所以我想做这样的事:
df['x1_times_k1'] = df['x1'] * df['k1']
df['x1_times_k1_centered'] = df.groupby('group')['x1_times_k1'].transform('mean')
y, X = dmatrices('lhs ~ x1_times_k1_centered', df)
但这是不可行的,有什么建议吗?
编辑 或者:是否有办法在scikit中按组标准化数据?