我有一个数据集,其中包含许多变量,我想用这些变量来生成疾病的风险评分。
我已经创建了我正在尝试做的基本版本。
数据集如下所示:
ID DISEASE_STATUS AGE SEX LOCATION
1 1 20 1 FRANCE
2 0 22 1 GERMANY
3 0 24 0 ITALY
4 1 20 1 GERMANY
5 1 20 0 ITALY
所以我跑的模型是:
glm(disease_status ~ age + sex + location, data=data, family=binomial(link='logit'))
该模型产生的β值如下:
bage = −0.193
bsex = −0.0497
blocation= 1.344
要产生风险评分,我想将每个人的值乘以β值,例如:
risk score = (-0.193 * 20 (age)) + (-0.0497 * 1 (sex)) + (1.344 * ??? (location))
但是,我会用什么价值来乘以位置的β分数?
谢谢!