我正在尝试使用R对我拥有的一些数据进行泊松回归。数据的当前结构如下:
根据三种职业对数据进行分层。数据中有四个级别的收入。在每个阶层中,对于每个收入水平都有
以下是设置示例。括号中的数字是观察到的总月数,括号中的数字是工作场所事故的数量。
http://i45.tinypic.com/4kwnp.png
我的问题是如何设置这些数据并对收入水平对工伤事故发生的影响进行泊松回归?理想情况下,我想调整职业并找出收入的影响,但作为一个起点,我不确定如何将其设置为泊松回归问题。我考虑做一些事情,比如将伤害次数除以观察月数,但随后给出非整数值,所以我认为这不是正确的事情。
重申一下,预测者:收入水平;响应变量:工作场所事故。
顺便说一下,将括号中的数字分开并将它们放入自己的列中是非常容易的,如果这样做有意义的话。我真的很感激有关如何设置它的任何建议。我相信其他统计人员正在使用类似的结构化数据,并且可能也希望获得一些见解。非常感谢!
答案 0 :(得分:4)
@thelatemail可能是正确的,认为这更适合stats.stackexchange.com,但这里有一些R代码。该数据格式宽,您需要将其重新构造为长格式。 (并且您不希望包含总计列。将前四列转换为长格式,其中您将'占用'和'级别'作为因子类变量,并将事故'计数'和曝光'月'作为数字列,您可以将此调用用于glm
。
fit <- glm( counts ~ level + occup + offset(log(months)), data=dfrm, family="poisson")
偏移量必须是log() - ed,以便与poisson-family的默认链接函数创建的记录计数一致。
(你真的不能指望我们重做那个数据输入任务,现在可以吗?)