Question

我需要向客户解释为什么欺骗会出现在两个据称不同的考试之间。 Prob和Stats已经过去了20年。

我有一个生成的多项选择考试。数据库中有192个问题， 100是随机选择的（没有愚蠢）。

显然，如此产生的任何两项考试之间至少有8次欺骗是有可能的。（鸽子原理）

如何计算出现概率 25个骗局？ 50个骗局？ 75欺骗？

- 事后编辑 - 我通过excel运行它，从n-100中获取概率的总和，对于这个特殊问题，概率是

n   P(n+ dupes)
40  97.5%
52  ~50% 
61  ~0

Answer 1

呃，这对我真的很朦胧。但是有（192选择100）可能的考试，对吗？

还有（100种选择N）选择N种方式，每种方式都有（92种选择100-N）方式来挑选其余的问题，不是吗？

因此，选择N dupes的概率不是：

（100选N）*（92选100-N）/（192选100）

编辑：因此，如果您想要 N或更多 dupes的机会而不是N，那么您必须将所有N值的上半部分与最小数量的dupes相加到100。

Errrr，也许......

Answer 2

一旦你创建了第一个考试，就有92个从未使用过的问题，而且有100个问题。如果您现在生成另一个考试，其中包含100个问题，那么您将从一组从未使用过的92个问题中挑选出100个问题。很明显，你会得到很多重复。

你可能会得到（100/192）* 100个重复，即在任意两个随机选择的考试中，平均会有52个重复的问题。

如果你想要25或75或其他什么的概率，那么你有两个选择。

a）计算出数学

b）在计算机上模拟几次运行

Answer 3

它可能比你想象的要高。我不会尝试复制这篇文章：http://en.wikipedia.org/wiki/Birthday_paradox