从C#中的加权列表中选择x个随机元素(无需替换)

时间:2012-08-02 10:52:58

标签: c# statistics probability

更新:我的问题已经解决,我在我的问题中更新了代码源以匹配Jason的答案。请注意,rikitikitik的答案是解决从更换样品中挑选卡片的问题。

我想从加权列表中选择x个随机元素。取样无需更换。我找到了这个答案:https://stackoverflow.com/a/2149533/57369带有Python实现。我在C#中实现了它并进行了测试。但结果(如下所述)与我的预期不符。我不了解Python,所以我很确定在将代码移植到C#时犯了一个错误,但是我无法看到Pythong中的代码在哪里得到了很好的记录。

我选了一张卡10000次,这是我获得的结果(结果与执行结果一致):

Card 1: 18.25 % (10.00 % expected)
Card 2: 26.85 % (30.00 % expected)
Card 3: 46.22 % (50.00 % expected)
Card 4: 8.68 % (10.00 % expected)

正如你所看到的,卡1和卡4的重量均为1,但卡1比卡4更经常被选中(即使我选择了2或3张牌)。

测试数据:

var cards = new List<Card>
{
    new Card { Id = 1, AttributionRate = 1 }, // 10 %
    new Card { Id = 2, AttributionRate = 3 }, // 30 %
    new Card { Id = 3, AttributionRate = 5 }, // 50 %
    new Card { Id = 4, AttributionRate = 1 }, // 10 %
};

这是我在C#中的实现

public class CardAttributor : ICardsAttributor
{
    private static Random random = new Random();

    private List<Node> GenerateHeap(List<Card> cards)
    {
        List<Node> nodes = new List<Node>();
        nodes.Add(null);

        foreach (Card card in cards)
        {
            nodes.Add(new Node(card.AttributionRate, card, card.AttributionRate));
        }

        for (int i = nodes.Count - 1; i > 1; i--)
        {
            nodes[i>>1].TotalWeight += nodes[i].TotalWeight;
        }

        return nodes;
    }

    private Card PopFromHeap(List<Node> heap)
    {
        Card card = null;

        int gas = random.Next(heap[1].TotalWeight);
        int i = 1;

        while (gas >= heap[i].Weight)
        {
            gas -= heap[i].Weight;
            i <<= 1;

            if (gas >= heap[i].TotalWeight)
            {
                gas -= heap[i].TotalWeight;
                i += 1;
            }
        }

        int weight = heap[i].Weight;
        card = heap[i].Value;

        heap[i].Weight = 0;

        while (i > 0)
        {
            heap[i].TotalWeight -= weight;
            i >>= 1;
        }

        return card;
    }

    public List<Card> PickMultipleCards(List<Card> cards, int cardsToPickCount)
    {
        List<Card> pickedCards = new List<Card>();

        List<Node> heap = GenerateHeap(cards);

        for (int i = 0; i < cardsToPickCount; i++)
        {
            pickedCards.Add(PopFromHeap(heap));
        }

        return pickedCards;
    }
}

class Node
{
    public int Weight { get; set; }
    public Card Value { get; set; }
    public int TotalWeight { get; set; }

    public Node(int weight, Card value, int totalWeight)
    {
        Weight = weight;
        Value = value;
        TotalWeight = totalWeight;
    }
}

public class Card
{
    public int Id { get; set; }
    public int AttributionRate { get; set; }
}

4 个答案:

答案 0 :(得分:2)

正如有些人在评论中提到的那样,按照您想要的确切比例创建一张卡片列表:

var deck = new List<Card>();

cards.ForEach(c => 
{
    for(int i = 0; i < c.AttributionRate; i++)
    {
         deck.Add(c);
    }
}

随机:

deck = deck.OrderBy(c => Guid.NewGuid()).ToList();

选择x卡:

var hand = deck.Take(x)

当然,这仅在AttributionRateint时才有效。否则,你将不得不修改甲板一代。

我得到以下结果,每次运行10,000次,每次运行5次:

Card 1: 9.932% 
Card 2: 30.15% 
Card 3: 49.854% 
Card 4: 10.064% 

另一个结果:

Card 1: 10.024%
Card 2: 30.034%
Card 3: 50.034% 
Card 4: 9.908% 

编辑:

我冒着按位操作,我看了你的代码。在我的油炸大脑上加入大量烧烤酱后,我注意到了一些事情:

首先,Random.Next(min,max)将在随机池中包含min,但不包括max。这就是卡1的概率高于预期的原因。

完成更改后,我实现了您的代码,当您绘制1张卡片时,它似乎正常工作。

Card 1: 10.4%  
Card 2: 32.2% 
Card 3: 48.4% 
Card 4: 9.0% 

Card 1: 7.5%
Card 2: 28.1%
Card 3: 50.0% 
Card 4: 14.4% 

但是,由于此声明,当您抽取超过1张卡时,您的代码将无效:

heap[i].Weight = 0;

该行以及之后的重新计算循环基本上从堆中删除了所有绘制卡的实例。如果您碰巧抽出四张牌,那么所有牌的百分比都会达到25%,因为您基本上都在抽取所有4张牌。事实上,算法并不完全适用于您的情况。

我怀疑你每次刷牌时都必须重新创建堆,但我怀疑它仍会表现得很好。如果我要处理这个问题,我会生成从1到heap[1].TotalWeight的4个不同的随机数,并从那里获得4个相应的卡,尽管在这种情况下随机数生成可能变得不可预测(重新卷入),因此低效的。

答案 1 :(得分:2)

程序中有两个小错误。首先,随机数的范围应该恰好等于所有项目的总重量:

int gas = random.Next(heap[1].TotalWeight);

其次,将gas >gas >=的地方改为gas

(原始Python代码没问题,因为>是一个浮点数,因此>=和{{1}}之间的差异可以忽略不计。该代码被编写为接受整数或浮点权重。)

更新:好的,您在代码中进行了建议的更改。我认为现在代码是正确的!

答案 2 :(得分:1)

如果您想从加权集中选择x个元素而不进行替换,以便选择的元素的概率与其权重成比例,那么您的算法是错误的。

考虑以下加权清单:
&#39; a&#39;:重量1
&#39; b&#39;:重量2
&#39; c&#39;:重量3
和x = 2

在此示例中,您的功能应始终返回&#39; c&#39;在结果集中。这是&#39; c&#39;选择频率为3倍&#39; a&#39;和&#39; b&#39;经常是1.5倍。但是,看到你的算法并不总能产生&#39; c,这是微不足道的。在结果中。

实现此目的的一种算法是沿着数字线从0到1对齐项目,使得它们占据与其权重成比例的段,然后随机选择一个数字&#34; start&#34;在0和1 / x之间,然后找到所有的点&#34;开始+ n / x&#34; (对于所有整数n,使得该点在0和1之间)并产生包含由这些点标记的项的集合。

换句话说,比如:

a.) optionally shuffle the list of elements (if you need random combinations of elements in addition to respecting the weights)  
b.) create a list of cumulative weights, if you will, called borders, such that borders[0] = items[0].weight and borders[i] = borders[i - 1] + items[i].weight  
c.) calculate the sum of all the weights => total_weight  
d.) step_size = total_weight / x  
e.) next_stop = pick a random number between [0, step_size)  
f.) current_item = 0  
g.) while next_stop < total_weight:
h.)   while borders[current_item] < next_stop:  
i.)     current_item += 1  
j.)   append items[current_item] to the output  
k.)   next_stop += step_size

注意:这仅适用于最大重量&lt; = step_size的情况。如果其中一个元素的权重大于总权重/ x,那么这个问题是不可能的:为了尊重权重,你必须多次选择一个元素。

答案 3 :(得分:0)

你可以这样做:

Card GetCard(List<Card> cards)
{
  int total = 0;
  foreach (Card c in cards)
  {
    total += AttributionRate;
  }

  int index = Random.Next(0, total - 1);
  foreach(Card c in cards)
  {
    index -= c.AttributionRate;
    if (index < 0)
    {
      return c;
    }
  }
}

Card PopCard(List<Card> cards)
{
  Card c = GetCard(cards);
  cards.Remove(c);
}

理论上这应该有用。