如何在熊猫中生成许多交互条款?

时间:2015-10-21 10:42:57

标签: python pandas scikit-learn statsmodels

我想估算一个IV回归模型,该模型使用与年份,人口统计等虚拟对象的许多互动。我无法在熊猫中找到一种明确的方法,如果有人有提示,我很好奇。

我正在考虑尝试scikit-learn和这个功能:

http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

2 个答案:

答案 0 :(得分:5)

我现在遇到了类似的问题,我需要一种灵活的方式来创建特定的交互并查看StackOverflow。我按照@ user333700上面评论中的提示进行操作,并感谢他找到了 patsy http://patsy.readthedocs.io/en/latest/overview.html)并在谷歌搜索后进行了这个scikit-learn integration patsylearn https://github.com/amueller/patsylearn)。

通过@ motam79的例子,这是可能的:

import numpy as np
import pandas as pd
from patsylearn import PatsyModel, PatsyTransformer
x = np.array([[ 3, 20, 11],
   [ 6,  2,  7],
   [18,  2, 17],
   [11, 12, 19],
   [ 7, 20,  6]])
df = pd.DataFrame(x, columns=["a", "b", "c"])
x_t = PatsyTransformer("a:b + a:c + b:c", return_type="dataframe").fit_transform(df)

返回以下内容:

     a:b    a:c    b:c
0   60.0   33.0  220.0
1   12.0   42.0   14.0
2   36.0  306.0   34.0
3  132.0  209.0  228.0
4  140.0   42.0  120.0

我在这里回答了类似的问题,其中我提供了另一个带有分类变量的例子: How can an interaction design matrix be created from categorical variables?

答案 1 :(得分:3)

您可以使用sklearn的PolynomialFeatures功能。这是一个例子:

让我们假设,这是你的设计(即特征)矩阵:

x = array([[ 3, 20, 11],
       [ 6,  2,  7],
       [18,  2, 17],
       [11, 12, 19],
       [ 7, 20,  6]])


x_t = PolynomialFeatures(2, interaction_only=True, include_bias=False).fit_transform(x)

结果如下:

array([[   3.,   20.,   11.,   60.,   33.,  220.],
       [   6.,    2.,    7.,   12.,   42.,   14.],
       [  18.,    2.,   17.,   36.,  306.,   34.],
       [  11.,   12.,   19.,  132.,  209.,  228.],
       [   7.,   20.,    6.,  140.,   42.,  120.]])

前三个功能是原始功能,接下来三个是原始功能的交互。