应用错误收集

我正在使用python对分类预测变量（独立变量）执行线性回归，包括分类预测变量之间的交互。特别是，我希望使用加权效应编码（也就是加权和编码或加权偏差编码）来生成正确的虚拟变量和设计矩阵。

加权效果编码是patsy的Sum（偏差）编码的加权版本，该编码对虚拟变量进行规范化，使得截距是整体样本均值，而不是组均值。 te Grotenhuis等人在本文中描述了具有交互作用的加权效果编码。等：

http://rdcu.be/l6fo（DOI 10.1007 / s00038-016-0902-0）

，它是通过作者提供的程序包wec.R在R中实现的。如您在论文表3中所见，在此方案中，交互项的编码不是简单地是编码的主要效果的乘积。

具体来说，使用简单的香草Sum编码，将使用patsy处理两个类别变量（例如年龄和受教育程度）之间的相互作用：

dmatrix（“ C（年龄，总和）* C（教育，总和”“，数据= my_data）

不幸的是，即使我编写了一个自定义的对比度类weighted_Sum（），它为已编码的主效果C（age，weighted_Sum）提供了正确的结果，但我仍然有一个问题，就是单纯的乘积

“ C（年龄，加权和）* C（教育，加权和）”

将无法为交互提供正确的编码（参见本论文的表3）。

任何有关如何处理此问题的建议将不胜感激。