我正在使用python对分类预测变量(独立变量)执行线性回归,包括分类预测变量之间的交互。特别是,我希望使用加权效应编码(也就是加权和编码或加权偏差编码)来生成正确的虚拟变量和设计矩阵。
加权效果编码是patsy的Sum(偏差)编码的加权版本,该编码对虚拟变量进行规范化,使得截距是整体样本均值,而不是组均值。 te Grotenhuis等人在本文中描述了具有交互作用的加权效果编码。等:
http://rdcu.be/l6fo(DOI 10.1007 / s00038-016-0902-0)
,它是通过作者提供的程序包wec.R在R中实现的。如您在论文表3中所见,在此方案中,交互项的编码不是简单地是编码的主要效果的乘积。
具体来说,使用简单的香草Sum编码,将使用patsy处理两个类别变量(例如年龄和受教育程度)之间的相互作用:
dmatrix(“ C(年龄,总和)* C(教育,总和”“,数据= my_data)
不幸的是,即使我编写了一个自定义的对比度类weighted_Sum(),它为已编码的主效果C(age,weighted_Sum)提供了正确的结果,但我仍然有一个问题,就是单纯的乘积
“ C(年龄,加权和)* C(教育,加权和)”
将无法为交互提供正确的编码(参见本论文的表3)。
任何有关如何处理此问题的建议将不胜感激。