我正在研究使用朴素贝叶斯的更大概率问题,但是现在我仍然坚持如何解决问题的一小部分。这是我正在研究的df的一个例子。
d = data.frame(work=c("unemployed","govt worker", "teacher", "unemployed"),
race=c("white","black", "white", "white"),
sex=c("male","female", "female", "male"))
> d
work race sex
1 unemployed white male
2 govt worker black female
3 teacher white female
4 unemployed white male
我想回答的问题是: 白人失业的概率是多少?
我认为第一步是建立一个似然表,但我不知道如何创建一个。
关于如何解决这个问题的任何想法? 谢谢。
答案 0 :(得分:0)
这有效:
# set (equal) probability for each row
d$prob <- 1/nrow(d)
# group by race and sex, sum probabilities
d <- aggregate(prob ~ race + sex, d, sum)