HI在这里完成新手问题:我有一个由两列组成的表。第一列属于“箱子”,其由果蝇的生活地点编码。第二列分别是0或1,中性vs非常像糖。我有两个问题?
1)如果我怀疑有一个变量,那就是他们住在哪里,这决定了他们对糖的价值是多少。有没有办法让计算机分组成2个集群?所有喜欢糖和中性的垃圾桶。这样我们就可以做进一步的实验,以确定它的箱子是什么。
2)自动确定可能有多少群集推动此行为?例如,可能有4个变量(4个簇)可以确定糖偏好的结果。
道歉,如果这是微不足道的。该表如下所列。谢谢!
Bin sugar
1 1
1 1
1 0
1 0
2 1
2 0
2 0
3 1
3 0
3 1
3 1
4 1
4 1
4 1
5 1
5 0
5 1
6 0
6 0
6 0
7 0
7 1
7 1
8 1
8 0
8 1
9 1
9 0
9 0
9 0
10 0
10 0
10 0
11 1
11 1
11 1
12 0
12 0
12 0
12 0
13 0
13 0
13 1
13 0
13 0
14 0
14 0
14 0
14 0
15 1
15 0
15 0
16 1
16 1
17 1
17 1
18 0
18 1
18 1
17 1
19 1
20 1
20 0
20 0
20 1
21 0
21 0
21 1
21 0
22 1
22 0
22 1
22 1
23 1
23 1
24 1
24 0
25 0
25 1
25 0
26 1
26 1
27 1
27 1
答案 0 :(得分:1)
好的,假设我理解了你的意思,应该使用贝叶斯过滤来解决问题1)的一种方法。 假设事件L是“苍蝇喜欢糖”,事件B是“苍蝇在垃圾箱B”。
所以你拥有的是:
number of flies = 84
size of each bins = (eg size of bin 1: 4)
苍蝇喜欢糖的概率:
P(L) = flies that like sugar / total number of flies = 43/84
苍蝇不喜欢糖的概率:
P(notL) = 1 - P(L) = 41/84
苍蝇在给定箱子中的概率:
P(B) = size of the bin / sum of the sizes of all bins = 4/84 (for bin 1)
苍蝇不在给定箱子中的概率:
P(notB) = 1 - P(B) = 80/84 (for bin 1)
苍蝇喜欢糖的概率,知道在B箱中:
P(L|B) = flies that like sugar in a bin / size of the bin
(eg for bin 1 is 2/4 = 1/2)
苍蝇喜欢糖的概率,知道它不在bin B中:
P(L|notB) = (total flies that like sugar - flies that like sugar in the bin)/(size of bins - size of the bin)) = 41/80
你想知道一只苍蝇在给定食物中的概率B知道喜欢糖,你可以用以下方法获得:
P(B|L) = (P(L|B) * P(B)) / (P(L|B) * P(B) + P(L|notB) * P(notB))
如果你为每个箱子计算P(B | L)和P(B | notL),那么你就知道哪个箱子含有喜欢糖的苍蝇的概率最高。然后你可以进一步研究那些垃圾箱。
希望我很清楚,我的统计数据有点生疏,而且我甚至不确定我是否正确地做了一切。把它作为一个提示,指出你正确的方向来解决问题。
您可以参考here以获得更准确的推理和结果。
至于问题2)......我必须多考虑一下。