为什么random()* random()与random()** 2不同?

时间:2014-06-29 19:09:43

标签: python random random-sample

random() * random()random() ** 2之间是否存在差异? random()从统一分布返回介于0和1之间的值。

当测试两个版本的随机平方数时,我注意到了一点点差异。我创建了100000个随机平方数,并计算每个区间中有多少个数为0.01(0.00到0.01,0.01到0.02,......)。似乎这些版本的平方随机数生成是不同的。

平方随机数而不是乘以两个随机数您是否重用了随机数,但我认为分布应该保持不变。真的有区别吗?如果没有,为什么我的测试显示出差异?


我为random() * random()生成两个随机分箱分配,为random() ** 2生成一个,如下所示:

from random import random

lst = [0 for i in range(100)]
lst2, lst3 = list(lst), list(lst)

#create two random distributions for random() * random()
for i in range(100000):
    lst[int(100 * random() * random())] += 1

for i in range(100000):
    lst2[int(100 * random() * random())] += 1

for i in range(100000):
    lst3[int(100 * random() ** 2)] += 1

给出了

>>> lst
[
    5626, 4139, 3705, 3348, 3085, 2933, 2725, 2539, 2449, 2413,
    2259, 2179, 2116, 2062, 1961, 1827, 1754, 1743, 1719, 1753,
    1522, 1543, 1513, 1361, 1372, 1290, 1336, 1274, 1219, 1178,
    1139, 1147, 1109, 1163, 1060, 1022, 1007,  952,  984,  957,
     906,  900,  843,  883,  802,  801,  710,  752,  705,  729,
     654,  668,  628,  633,  615,  600,  566,  551,  532,  541,
     511,  493,  465,  503,  450,  394,  405,  405,  404,  332,
     369,  369,  332,  316,  272,  284,  315,  257,  224,  230,
     221,  175,  209,  188,  162,  156,  159,  114,  131,  124,
     96,   94,   80,   73,   54,   45,   43,   23,   18,     3
]

>>> lst2
[
    5548, 4218, 3604, 3237, 3082, 2921, 2872, 2570, 2479, 2392,
    2296, 2205, 2113, 1990, 1901, 1814, 1801, 1714, 1660, 1591,
    1631, 1523, 1491, 1505, 1385, 1329, 1275, 1308, 1324, 1207,
    1209, 1208, 1117, 1136, 1015, 1080, 1001,  993,  958,  948,
     903,  843,  843,  849,  801,  799,  748,  729,  705,  660,
     701,  689,  676,  656,  632,  581,  564,  537,  517,  525,
     483,  478,  473,  494,  457,  422,  412,  390,  384,  352,
     350,  323,  322,  308,  304,  275,  272,  256,  246,  265,
     227,  204,  171,  191,  191,  136,  145,  136,  108,  117,
      93,   83,   74,   77,   55,   38,   32,   25,   21,    1
]

>>> lst3
[
    10047, 4198, 3214, 2696, 2369, 2117, 2010, 1869, 1752, 1653,
     1552, 1416, 1405, 1377, 1328, 1293, 1252, 1245, 1121, 1146,
     1047, 1051, 1123, 1100,  951,  948,  967,  933,  939,  925,
      940,  893,  929,  874,  824,  843,  868,  800,  844,  822,
      746,  733,  808,  734,  740,  682,  713,  681,  675,  686,
      689,  730,  707,  677,  645,  661,  645,  651,  649,  672,
      679,  593,  585,  622,  611,  636,  543,  571,  594,  593,
      629,  624,  593,  567,  584,  585,  610,  549,  553,  574,
      547,  583,  582,  553,  536,  512,  498,  562,  536,  523,
      553,  485,  503,  502,  518,  554,  485,  482,  470,  516
]

预期的随机误差是前两个的差异:

[
    78,  79, 101, 111,   3,  12, 147,  31,  30,  21,
    37,  26,   3,  72,  60,  13,  47,  29,  59, 162,
   109,  20,  22, 144,  13,  39,  61,  34, 105,  29,
    70,  61,   8,  27,  45,  58,   6,  41,  26,   9,
     3,  57,   0,  34,   1,   2,  38,  23,   0,  69,
    47,  21,  48,  23,  17,  19,   2,  14,  15,  16,
    28,  15,   8,   9,   7,  28,   7,  15,  20,  20,
    19,  46,  10,   8,  32,   9,  43,   1,  22,  35,
     6,  29,  38,   3,  29,  20,  14,  22,  23,   7,
     3,  11,   6,   4,   1,   7,  11,   2,   3,   2
]

但是第一个和第三个之间的差异要大得多,暗示分布是不同的:

[
    4421,   59,  491,  652,  716,  816,  715,  670,  697,  760,
     707,  763,  711,  685,  633,  534,  502,  498,  598,  607,
     475,  492,  390,  261,  421,  342,  369,  341,  280,  253,
     199,  254,  180,  289,  236,  179,  139,  152,  140,  135,
     160,  167,   35,  149,   62,  119,    3,   71,   30,   43,
      35,   62,   79,   44,   30,   61,   79,  100,  117,  131,
     168,  100,  120,  119,  161,  242,  138,  166,  190,  261,
     260,  255,  261,  251,  312,  301,  295,  292,  329,  344,
     326,  408,  373,  365,  374,  356,  339,  448,  405,  399,
     457,  391,  423,  429,  464,  509,  442,  459,  452,  513
]

2 个答案:

答案 0 :(得分:17)

以下是一些情节:

random() * random()的所有可能性:

A 2D heatmap with most intensity in the top-right.

x轴是向右增加的一个随机变量,y轴是另一个向上增加的随机变量。

你可以看到,如果两者都很低,结果会很低,而且两者都必须很高才能得到很高的结果。

当唯一的决策者是单轴时,就像在random() ** 2情况下一样,你得到

A 2D heatmap that increases quadratically from bottom to top, and is invariant in the x-axis

在这种情况下,它更有可能获得一个非常暗(大)的值,因为整个顶部是黑暗的,而不仅仅是一个角落。

当你同时进行线性化时,random() * random()位于顶部:

A linearization of the first graph A linearization of the second graph

您看到分布确实不同。

代码:

import numpy
import matplotlib
from matplotlib import pyplot
import matplotlib.cm

def make_fig(name, data):
    figure = matplotlib.pyplot.figure()
    print(data.shape)
    figure.set_size_inches(data.shape[1]//100, data.shape[0]//100)

    axes = matplotlib.pyplot.Axes(figure, [0, 0, 1, 1])
    axes.set_axis_off()
    figure.add_axes(axes)

    axes.imshow(data, origin="lower", cmap=matplotlib.cm.Greys, aspect="auto")
    figure.savefig(name, dpi=200)

xs, ys = numpy.mgrid[:1000, :1000]
two_random = xs * ys

make_fig("two_random.png", two_random)

two_random_flat = two_random.flatten()
two_random_flat.sort()
two_random_flat = two_random_flat[::1000]

make_fig("two_random_1D.png", numpy.tile(two_random_flat, (100, 1)))

one_random = xs * xs

make_fig("one_random.png", one_random)

one_random_flat = one_random.flatten()
one_random_flat.sort()
one_random_flat = one_random_flat[::1000]

make_fig("one_random_1D.png", numpy.tile(one_random_flat, (100, 1)))

你也可以用数学方法解决这个问题。使用x获得小于0 ≤ x ≤ 1的值的概率为

对于random()²

√x

随机值低于x的概率是random()² < x的概率。

对于random() · random()

鉴于第一个随机变量是r而第二个是R,我们可以找到Rr < x具有固定R的概率:

P(Rr < x)
= P(r < x/R)
= 1 if x > R (and so x/R > 1)
or
= x/R otherwise

所以我们想要

∫ P(Rr < x) dR from R=0 to R=1

= ∫ 1   dR from R=0 to R=x
+ ∫ x/R dR from R=x to R=1

= x(1 - ln R)

我们可以看到,√x ≠ x(1 - ln R)

这些发行版显示为:

Probability that the function is less than a given value

y轴给出了线(random()²random() · random())小于x轴的概率。

我们看到,对于random() · random(),大数字的可能性要小得多。

密度函数

我想最明显的是区分(½x ^ -½- ln x)并绘制概率密度函数:

Probabilities of each number's occurring

这显示了相对而言每个x的概率。因此,x变量的概率> 0.5大约为random()²变异的两倍。

答案 1 :(得分:13)

让我们稍微简化一下这个问题。考虑投掷两个骰子并将结果乘以投掷一个骰子并将其平方。在第一种情况下,你有一个三分之一的机会投掷双1,因此产品为1的概率为1/36。另一方面,第二种情况显然有1/6的机会,正方形为1.相同适用于双6,因此在平方时极端情况更为可能。

当您使用随机浮点数时,情况也是如此:您在极端情况下获得两个随机值的可能性要小于获得单个值的可能性,因此当平方时,非常小或非常大的值会更频繁地出现当乘以两个独立的值时。