Question

在python中，我使用以下代码创建了一个回归模型：

import statsmodels.formula.api as sm
df = pd.DataFrame({"A": data['dur'], "B": data['agreement'], "C": data['vidPersonIdeoDiff'], "D": data['opinionChange'],  "G": data['fake']})
result = sm.ols(formula="A ~ B + C + D + G", data=df).fit()
print(result.params)

print(result.summary())

现在，我有兴趣在同一回归中添加条件或'if-statement'。我将如何运行它，但仅适用于某些群体，例如，如果年龄<＆lt; 36？在Stata中，等价物是：

reg dur agreement vidPersonIdeoDiff opinionChange fake if age < 36

知道如何在python中复制那个stata行吗？如果解决方案与我一直在使用的statsmodels.formula.api模块一致，那将特别有用。谢谢！

Answer 1

如果您有这样的DataFrame：

df = pd.DataFrame({'age':[1,2,3,4,5],'b':[2,4,6,8,10]})

您只能选择'age'列中值大于3的行，如下所示：

age_greater_3 = df[df['age']>3]

然后只使用age_greater_3代替df

Answer 2

如果说，'age'是您有条件的变量：

result = sm.ols(formula="A ~ B + C + D + G", data=df[data['age']<36]).fit()

Answer 3

简单地对数据框进行子集...

import pandas as pd
import statsmodels.formula.api as sm
import numpy as np

df = pd.DataFrame(
    {'x': np.random.normal(1000), 'z': np.random.rand(1000) > 0.5}
)
df['y'] = df['x'] * 2 + np.random.normal(1000)

# full dataset
sm.ols(formula='y ~ x', data=df).fit().summary()
# conditional on z = True
sm.ols(formula='y ~ x', data=df.loc[df['z']]).fit().summary()

# for a continuous variable
df['age'] = np.random.randint(18, 65, 1000)
sm.ols(formula='y ~ x', data=df[df['age'] > 30]).fit().summary()

Python中的条件回归模型

3 个答案: