我正在尝试在我的数据框中随机选择一定比例的行和列,并将这些特征放入10次迭代的逻辑回归中。我的因变量是球队是赢了(1)还是丢了(0)。
如果我的df看起来像这样(数据已经组成):
Won Field Injuries Weather Fouls Players
1 2 3 1 2 8
0 3 2 0 1 5
1 4 5 3 2 6
1 3 2 1 4 5
0 2 3 0 1 6
1 4 2 0 2 8
...
例如,假设我想选择50%(但这可能会改变)。我想随机选择50%(或最接近50%,如果它是一个奇数)的列(场,伤,天气,犯规,玩家)和这些列中50%的行放在我的模型中。
这是我现在的代码,现在通过选择所有列和行并将其拟合到我的模型中来运行,但我想指出一个随机百分比:
z = []
For i in range(10):
train_cols = df.columns[1:]
logit = sm.Logit(df['Won'], df[train_cols])
result = logit.fit()
exp = np.exp(result.params)
z.append([i, exp])