好吧,有人最近问我Twitter推特X的粉丝也是Twitter处理Y的追随者的概率。我使用了一些R代码(使用twitteR软件包)从X获得47,000名粉丝和Y的61,000名粉丝(两个手柄有很多粉丝)。我创建了一个向量,发现大约1200个数据点是重复的(因此600个粉丝出现了两次)。我现在的问题是,如何找到共享关注者的比例。这是我的理由:
p(A and B) = p(B)*p(A)
其中p(A and B)
=对两个跟随X和Y页的人进行采样的概率(一次采样X时,一次采用Y)= 1200 /(61000 + 46000)= 1200/108000 = 0.011 < / p>
p(A) = probability of sampling an X follower who also follows the Y
p(B) = the probability of sampling an Y follower who also follows the X
我将假设p(A) = p(B)
。
所以我们可以用p(A and B)
替换0.011,p(A)
替换p(B)
来获取:
0.011 = p(B)*p(B)
0.011 = p(B)^2
.104 = p(B) = p(A)
因此,大约10%的X粉丝也跟随Y.我在这种推理中是否正确?有什么我想念的吗?
答案 0 :(得分:0)
那么你应该在数学论坛上提出这个问题,这个问题主要集中在编程上。
您正在寻找的公式是: P(Y给定X)= P(Y和X)/ P(X)
47,000跟随X,61,000跟随Y,600跟随两者。
这意味着有一个比例为600 / 47,000 = 6 / 47~1 / 8 = 12.5%的X追随者也跟随Y.
这是一个可能的估计,即一个人跟随Y的概率,因为他们跟随X.但它并不意味着什么。你必须在统计上测试这个比例是否足够高,以便最终得出任何结论。我想象有两个完全不相关的VIP,并且有数以千计的共同追随者,这些追随者只是通过纯粹的随机过程发生的。