Question

前言

看起来它是几个stackoverflow问题的重复，但是我的情况（可能）有点独特。

我的情况

我有字典。键是字符串，而 value 是整数。

我希望python脚本随机选择 N 个键。

值是被选择的可能性。密钥的值越高，密钥被随机选择的机会就越高。

我的解决方案

因此，使用其他一些StackOverflow帖子以及互联网的强大功能，我设法使用加权随机解决了该问题。

DICT_VAR= {'best':308281009, 'good':7066325, 'meh':26884, 'bad':71, 'terrible':16, 'never':0}

list_var = []
for i in DICT_VAR.keys():
    list_var.extend([i]*DICT_VAR[i])

print random.sample(list_var, 2) # get 2 random choice I suppose

问题（要解决的问题）

您可能会注意到，字典中的值可以非常大（可以无限大），也可以小至0（零是最小，没有负数））。

运行此代码（使用大一些的代码）导致我的计算机死机并且没有响应，直到我对其进行硬重置。

我的问题

我应该如何处理这种情况？还有什么其他适合我的情况的随机选择方法，因为加权随机是当前情况下最糟糕的解决方案。

Answer 1

在这里我将假设0的值表示永远不要选择该键，该键可以在示例中重复（在字典中是不相关的），并且我们可以使用第三方模块- -numpy在这种情况下。这是在Python 3.6.4中经过测试的代码，但我对其进行了修改，因此它应该在Python 2.7中运行，但我不能采用这种方式进行测试。

DICT_VAR= {'best':308281009, 'good':7066325, 'meh':26884, 'bad':71,
           'terrible':16, 'never':0}

import numpy as np

keys, weights = zip(*DICT_VAR.items())
probs = np.array(weights, dtype=float) / float(sum(weights))
sample_np = np.random.choice(keys, 2, p=probs)
sample = [str(val) for val in sample_np]

然后sample将您的样本保存为键字符串列表。请注意，键'best'的权重比其他权重大得多，因此样本几乎总是['best', 'best']。

解释我的代码：首先将字典的键（字符串）和值（权重）拆分为单独的列表。然后将权重更改为概率-权重越大表示概率越大，权重为零表示概率为零。然后使用numpy的choice函数以概率作为权重选择键的样本。结果是一个numpy数组，但是您似乎想要一个标准的Python列表，因此最后一行将键的示例转换为标准列表。

当然，有一个相当短的例程可以用标准Python编写，因此我们可以避免使用numpy。但这很可能会更慢。

您的例程运行缓慢的原因是它建立了一个很大的列表，每个键重复其值指定的次数，然后以均匀的概率选择了一个样本。对于您的样本数据，这意味着构建一个庞大的列表，该列表远远大于可用的RAM，并且需要花费大量时间。 Numpy的选择例程可以直接处理非均匀随机分布，而无需建立另一个列表。

Answer 2

在Py 3.6中，它是标准库的一部分，带有random.choices()：

In []:
import random
random.choices(list(DICT_VAR.keys()), DICT_VAR.values(), k=2)

Out[]:
['best', 'best']

Python随机选择“百分比”

2 个答案: