泊松回归数据准备

时间:2018-06-12 00:20:07

标签: regression prediction glm poisson

我希望就如何最好地提供家庭暴力数据集的结果和预测变量提供一些建议。

我希望建立一个模型,根据我选择的一些预测变量,使用泊松回归模型(由于人口普查的计数数据)预测每个县的家庭暴力事件。

我的数据列包括:

  • 从2005年到2017年,每个县都有家庭暴力(每年一栏)
  • 2005年至2017年每个县的总人口数(每年一列)
  • 根据最新的人口普查年度(总共三列),预测变量包括男性失业率,每周收入(100美元至400美元)以及每个县居住在政府住房的人数

我的问题是: 我想建立我的培训和测试数据集(70/30;所以从2005年到2013年),但我不知道如何做到这一点。例如,这是基于一年数据的我的模型,但是现在我如何在多年内将这个结合到我的模型中呢?我使用每个县的人口数作为日志偏移量,所以我也有同样的问题。

我的第二个问题是,我应该使用预测变量(例如失业率)的实际计数或县人口百分比(我目前的方法)吗?

glm.fit <- glm(yr2005_domestic_violence ~ 
                  Unemployment_Male_ppt #% Unemployment
                + Government_ppt #% Government housing
                + x200_799_ppt #% income
                + offset(log(yr2005_population)) 
                , family=poisson(link=log)
                , data = data_train
)

由于

0 个答案:

没有答案