下面我已经包含PEW research study的数据。什么是结合概率来达到复合材料的方法:一个18岁的黑人男性?
答案 0 :(得分:2)
没有足够的信息来确定组合群组中有多少人拥有手机,因为我们并不确切知道这些群组的重叠方式。
让我们考虑一个更简单的例子:在100人中,50人是男人,50人喜欢奶酪。有多少男人喜欢奶酪?
显然,我们没有足够的信息,因为从男人到所有男人都不喜欢奶酪。
同样的概念适用于手机数据,而且甚至很难提出各种可能性。
例如,考虑有多少西班牙裔男性拥有手机。它应该介于95%和98%之间,对吗?错误!想象一下,调查中有10万名男性,990名西班牙裔女性,但只有10名西班牙裔男性。我们可以拥有9.5万非西班牙裔男性,980名西班牙裔女性和0名拥有手机的西班牙裔男性 - 让我们0%的西班牙裔男性拥有手机。或者通过类似的推理,我们可以构建一个案例,100%的西班牙裔男性拥有手机。
但是,如果我们有关于每组调查的确切数据的数据,您可能会想出一些可能范围窄于0-100%的范围。例如,在喜欢奶酪的男人中,如果有60个人是男性,那么我们可以说至少10个人必须喜欢奶酪。
答案 1 :(得分:2)
正如Imran所指出的那样,人们无法从可用的有限数据中推断出答案。如果您愿意做出简化假设,那么您可以取得进步。但请注意,这种假设是否有效只能通过获取更详细的数据来解答。
我们走了。 OP要求P(手机,年龄,种族,性别)。根据贝叶斯的规则,这是:
P(cell phone|age, race, gender)
= P(age, race, gender, cell phone) / P(age, race, gender)
= P(age, race, gender|cell phone) P(cell phone) / P(age, race, gender)
简化的假设是年龄,种族和性别在手机状态下是独立的。同样,使用可用数据无法回答这是否有效。假设,我们有:
P(age, race, gender|cell phone)
= P(age|cell phone) P(race|cell phone) P(gender|cell phone)
现在将贝叶斯规则应用于每个术语:
P(age|cell phone) = P(cell phone|age) P(age) / P(cell phone)
P(race|cell phone) = P(cell phone|race) P(race) / P(cell phone)
P(gender|cell phone) = P(cell phone|gender) P(gender) / P(cell phone)
此时我们有:
P(age, race, gender, cell phone)
= P(cell phone|age) P(cell phone|race) P(cell phone|gender)
P(age) P(race) P(gender) / P(cell phone)^2
让P1 = P(年龄,种族,性别,手机)和P0 = P(年龄,种族,性别,没有手机)。然后P(年龄,种族,性别)= P1 + P0,
P(cell phone|age, race, gender) = P1/(P1 + P0) = 1/(1 + P0/P1)
现在,幸运的是,有些条款取消了:
P0/P1 = foo/bar
与
foo = P(no cell phone|age) P(no cell phone|race) P(no cell phone|gender) / P(no cell phone)^2
bar = P(cell phone|age) P(cell phone|race) P(cell phone|gender) / P(cell phone)^2
一些例子:
P(cell phone|age = 18-29, race=black, gender=male)
= 1 / (1 + ((0 * 0.02 * 0.05) / 0.05^2) / ((1 * 0.98 * 0.95) / 0.95^2))
= 1
P(cell phone|age = 30-49, race=black, gender=male)
= 1 / (1 + ((0.02 * 0.02 * 0.05) / 0.05^2) / ((0.98 * 0.98 * 0.95) / 0.95^2))
= 0.992
P(cell phone|age = 65+, race=white, gender=female)
= 1 / (1 + ((0.15 * 0.06 * 0.06) / 0.05^2) / ((0.85 * 0.94 * 0.94) / 0.95^2))
= 0.794
所以,有一些结果。同样,请记住,这些结果取决于只能用更多数据验证的假设。