概率:结合多个概率来达到复合

时间:2018-02-16 05:23:27

标签: statistics probability

下面我已经包含PEW research study的数据。什么是结合概率来达到复合材料的方法:一个18岁的黑人男性?

Example

2 个答案:

答案 0 :(得分:2)

没有足够的信息来确定组合群组中有多少人拥有手机,因为我们并不确切知道这些群组的重叠方式

让我们考虑一个更简单的例子:在100人中,50人是男人,50人喜欢奶酪。有多少男人喜欢奶酪?

显然,我们没有足够的信息,因为从男人到所有男人都不喜欢奶酪。

同样的概念适用于手机数据,而且甚至很难提出各种可能性。

例如,考虑有多少西班牙裔男性拥有手机。它应该介于95%和98%之间,对吗?错误!想象一下,调查中有10万名男性,990名西班牙裔女性,但只有10名西班牙裔男性。我们可以拥有9.5万非西班牙裔男性,980名西班牙裔女性和0名拥有手机的西班牙裔男性 - 让我们0%的西班牙裔男性拥有手机。或者通过类似的推理,我们可以构建一个案例,100%的西班牙裔男性拥有手机。

但是,如果我们有关于每组调查的确切数据的数据,您可能会想出一些可能范围窄于0-100%的范围。例如,在喜欢奶酪的男人中,如果有60个人是男性,那么我们可以说至少10个人必须喜欢奶酪。

答案 1 :(得分:2)

正如Imran所指出的那样,人们无法从可用的有限数据中推断出答案。如果您愿意做出简化假设,那么您可以取得进步。但请注意,这种假设是否有效只能通过获取更详细的数据来解答。

我们走了。 OP要求P(手机,年龄,种族,性别)。根据贝叶斯的规则,这是:

P(cell phone|age, race, gender)
  = P(age, race, gender, cell phone) / P(age, race, gender)
  = P(age, race, gender|cell phone) P(cell phone) / P(age, race, gender)

简化的假设是年龄,种族和性别在手机状态下是独立的。同样,使用可用数据无法回答这是否有效。假设,我们有:

P(age, race, gender|cell phone)
  = P(age|cell phone) P(race|cell phone) P(gender|cell phone)

现在将贝叶斯规则应用于每个术语:

P(age|cell phone) = P(cell phone|age) P(age) / P(cell phone)
P(race|cell phone) = P(cell phone|race) P(race) / P(cell phone)
P(gender|cell phone) = P(cell phone|gender) P(gender) / P(cell phone)

此时我们有:

P(age, race, gender, cell phone)
  = P(cell phone|age) P(cell phone|race) P(cell phone|gender)
    P(age) P(race) P(gender) / P(cell phone)^2

让P1 = P(年龄,种族,性别,手机)和P0 = P(年龄,种族,性别,没有手机)。然后P(年龄,种族,性别)= P1 + P0,

P(cell phone|age, race, gender) = P1/(P1 + P0) = 1/(1 + P0/P1)

现在,幸运的是,有些条款取消了:​​

P0/P1 = foo/bar

foo = P(no cell phone|age) P(no cell phone|race) P(no cell phone|gender) / P(no cell phone)^2
bar = P(cell phone|age) P(cell phone|race) P(cell phone|gender) / P(cell phone)^2

一些例子:

P(cell phone|age = 18-29, race=black, gender=male)
  = 1 / (1 + ((0 * 0.02 * 0.05) / 0.05^2) / ((1 * 0.98 * 0.95) / 0.95^2))
  = 1

P(cell phone|age = 30-49, race=black, gender=male)
  = 1 / (1 + ((0.02 * 0.02 * 0.05) / 0.05^2) / ((0.98 * 0.98 * 0.95) / 0.95^2))
  = 0.992

P(cell phone|age = 65+, race=white, gender=female)
  = 1 / (1 + ((0.15 * 0.06 * 0.06) / 0.05^2) / ((0.85 * 0.94 * 0.94) / 0.95^2))
  = 0.794

所以,有一些结果。同样,请记住,这些结果取决于只能用更多数据验证的假设。