我希望就如何最好地提供家庭暴力数据集的结果和预测变量提供一些建议。
我希望建立一个模型,根据我选择的一些预测变量,使用泊松回归模型(由于人口普查的计数数据)预测每个县的家庭暴力事件。
我的数据列包括:
我的问题是: 我想建立我的培训和测试数据集(70/30;所以从2005年到2013年),但我不知道如何做到这一点。例如,这是基于一年数据的我的模型,但是现在我如何在多年内将这个结合到我的模型中呢?我使用每个县的人口数作为日志偏移量,所以我也有同样的问题。
我的第二个问题是,我应该使用预测变量(例如失业率)的实际计数或县人口百分比(我目前的方法)吗?
glm.fit <- glm(yr2005_domestic_violence ~
Unemployment_Male_ppt #% Unemployment
+ Government_ppt #% Government housing
+ x200_799_ppt #% income
+ offset(log(yr2005_population))
, family=poisson(link=log)
, data = data_train
)
由于