我有一些销售数据,显示每个区域每个产品的日销售额以及一些预测变量,我试图进行泊松回归(作为计数数据)。在不考虑区域的情况下对整个数据集进行皮尔逊相关性的工作相当薄弱,但是在考虑区域时显示出更好的结果。
import pandas as pd
data = [['29/10/20', 'apple', 'east', 2, 50],
['29/10/20', 'apple', 'west', 1, 300],
['29/10/20', 'orange', 'east', 3, 300],
['30/10/20', 'apple', 'east', 3, 200],
['30/10/20', 'orange', 'east', 1, 30],
['30/10/20', 'orange', 'west', 2, 10]]
df = pd.DataFrame(data, columns = ['date', 'product', 'region', 'sales', 'predictor1'])
我知道我可以使用groupby按区域划分相关性
df.groupby(["region"]).corr()
我想对泊松回归做类似的事情。我认为“团体”论证是正确的吗?还是我误会了
from statsmodels.formula.api import glm
glm(formula="sales ~ predictor1 ", groups=df['region'], data=df, family=sm.families.Poisson()).fit()