费雪耶茨变异

时间:2012-01-14 10:17:39

标签: c++ algorithm permutation probability shuffle

经典的费雪耶茨看起来像这样:

void shuffle1(std::vector<int>& vec)
{
    int n = vec.size();
    for (int i = n - 1; i > 0; --i)
    {
        std::swap(vec[i], vec[rand() % (i + 1)]);
    }
}

昨天,我错误地“向后”实施了迭代:

void shuffle2(std::vector<int>& vec)
{
    int n = vec.size();
    for (int i = 1; i < n; ++i)
    {
        std::swap(vec[i], vec[rand() % (i + 1)]);
    }
}

这个版本是否比第一版更差(或更好)?它是否会扭曲由此产生的概率?

2 个答案:

答案 0 :(得分:3)

是的,假设rand()是偶数分布。我们将通过显示每个输入可以以相同的概率生成每个排列来证明这一点。

N = 2可以很容易地证明。  我们将它绘制为一个树,其中子代表通过将逗号后面的字符插入最左边的字符串来表示每个字符串。

  0,1   //input where 0,1 represent indices
01  10  //output. Represents permutations of 01. It is clear that each one has equal probability

对于N,我们将为N-1提供每个排列,并随机交换N的最后一个字符

    (N-1 0th permutation),N     .....          (N-1 Ith permutation),N ________________________  
      /              \                       /                   \                             \ 
0th permutation of N  1st permutation....   (I*N)th permutation   ((I*N)+1)th permutation .... (I*N)+(I-1)th permutation

这种糟糕的感应应该引导你进行均匀分布。


示例:

N = 2:

  0,1
01  10 // these are the permutations. Each one has equal probability

N = 3:

           0,1|2           // the | is used to separate characters that we will insert later
    01,2           10,2    // 01, 10 are permutations from N-1, 2 is the new value
 210 021 012   201 120 102 // these are the permutations, still equal probability

N = 4 :(弯曲以帮助阅读)

                                                           0,1|23

                                                       01,2|3  10,2|3

                                           012,3 021,3 210,3    102,3 120,3 201,3

0123 0132 0321 3230                                                                                  2013 2031 2310 3012
                    0213 0231 0312 3210                                          1203 1230 1302 3201
                                        2103 2130 2301 3102  1023 1032 1320 3021

答案 1 :(得分:1)

对我来说没问题(假设rand()%N是无偏的,但事实并非如此)。似乎应该有可能证明输入的每个排列都是由1个随机选择序列产生的,其中每个随机选择是平衡的。

将此与错误的实现(例如

)进行比较
for (int i = 0; i < v.size(); ++i) {
  swap(v[i], v[rand() % v.size()]);
}

在这里你可以看到有n n 同样可能产生n的方法!排列,因为n n 不能被n整除!其中n> 2,其中一些排列必须比其他排列更频繁地产生。