随机数生成器

时间:2016-06-16 12:19:25

标签: random fortran rounding fortran77 mersenne-twister

这实际上是前一个问题的后续问题: Rounding of double precision to single precision: Forcing an upper bound

在我认为解决上一个问题的答案后我的问题解决后,我再次尝试运行我的程序,发现我遇到了同样的问题。

我正在使用的Mersenne Twister实现生成一个带符号的32位随机整数。 实现RNG的人使该函数生成[0,1)范围内的随机双精度浮点数:

  function genrand_real2()
    double precision genrand_real2,r
    integer genrand_int32
    r=dble(genrand_int32())
    if(r.lt.0.d0)r=r+2.d0**32
    genrand_real2=r/4294967296.d0
    return
  end

它完美无缺,所以按照前一个问题的建议,我使用以下函数生成一个随机的单精度浮点数,在我认为的范围内是[0,1):

  function genrand_real()
    real genrand_real, r
    integer genrand_int32
    r = real(genrand_int32())
    if (r .lt. 0.0) r = r + 2.0**32
    genrand_real = r / 4294967296.0
    return
  end

但是我得到了之前得到的同样的错误,由1.0号引起。所以我写了一个小程序来表明我的genrand_real实际上生成了1.0,并且发现我是对的,并且生成了1.0。这导致我使用的方式生成[1,MAX]范围内的整数(在本例中为[1,5]),无法生成值MAX + 1,以及我正在处理的代码中的其他不便之处。 / p>

  i = 0
  do while (.true.)
    r = genrand_real()
    if (r .gt. 0.99999) then
        i = i + 1
        print *, 'number is:', r
        print *, 'conversion is: ', int(5*r)+1
    endif
    if (i .gt. tot_large) exit
  enddo

我的问题是,为什么它适用于双精度但不适用于单精度浮点数?我没有看到它失败的原因,因为2 ** 32适合单个精度浮点数。另外,我该怎么做才能修复它?我想将数字除以2.0 ** 32 + 1而不是2.0 ** 32,但我不确定它在理论上是否正确并且数字是统一的。

2 个答案:

答案 0 :(得分:2)

我不确定是否在旧问题或此处发布此答案。无论如何,我可能有一个解决方案(在第二个代码块中)。

大约两年前我用于同一任务的例程是这样的:

function uniran( )
    implicit none
    integer, parameter :: dp = selected_real_kind(15, 307)
    real(dp)  ::  tmp
    real :: uniran
    tmp = 0.5_dp + 0.2328306e-9_dp * genrand_int32( )
    uniran = real(tmp)
end function uniran

我忘记了代码的来源,虽然它很简单,但它有一个微妙的技巧,我现在才意识到。明显的区别在于乘法而不是除法,但这仅仅是因为乘以固定数而不是除以(0.2328306e-9 = 1/4294967296)。 特技是:这不是真的。 1/4294967296 = 0.23283064365386962890625e-9,因此程序使用的有效位数低于双精度可以容纳的数字(15,而只使用7)。如果增加位数,则结果数字会接近1,并在后续转换过程中变为1。你可以尝试一下:如果你只使用一个数字,它就会开始失败(= 1.0)。 显然,这个解决方案有点像黑客,所以我也尝试了一种不同的方法,重新采样,如果结果正好是1:

recursive function resample_uniran( ) result(res)
    implicit none
    integer, parameter :: dp = selected_real_kind(15, 307)
    real(dp)  ::  tmp
    real :: res
    tmp = 0.5_dp + 0.23283064365386962890625e-9_dp * genrand_int32( )
    res = real(tmp)
    if (res == 1.0) then
        res = resample_uniran()
    end if
end function resample_uniran

我编写了一个测试函数的程序(包含函数和子程序的模块位于帖子的末尾,它相对较长):

program prng_fail
use mod_prngtest
implicit none
integer(kind=16) :: i, j, k

! loop counters
i = 0
j = 0
k = 0

call init_genrand_int32()

do
    i = i + 1
    j = j + 1
    k = k + 1
    if (genrand_real() == 1.0) then
        print*, 'genrand_real fails after ', i, ' iterations'
        i = 0
    end if
    if (uniran() == 1.0) then
        print*, 'uniran fails after ', j, ' iterations'
        j = 0
    end if
    if (resample_uniran() == 1.0) then
        print*, 'resample_uniran fails after ', k, ' iterations'
        k = 0
    end if
end do

end program prng_fail

结果genrand_real经常失败(= 1.0)(我们每隔几百万次说话),而其他两个到目前为止从未失败过。 递归版本花费你的时间,但技术上更好,因为最高可能的数字接近1。

我还测试了速度和"均匀性"并且与内在random_number子程序相比,它也在[0,1]中给出了均匀的随机数。 (小心,这会创建3 x 512 MB文件)

program prng_uniformity
use mod_prngtest
implicit none
integer, parameter :: n = 2**27
real, dimension(n) :: uniran_array, resamp_array, intrin_array
integer :: array_recl, i
real :: start_time, end_time

call init_genrand_int32()
call init_random_seed()

! first check how long they take to produce PRNs
call cpu_time(start_time)
do i=1,n
    uniran_array(i) = uniran()
end do
call cpu_time(end_time)
print*, 'uniran took ', end_time - start_time, ' s to produce ', n, ' PRNs'

call cpu_time(start_time)
do i=1,n
    resamp_array(i) = resample_uniran()
end do
call cpu_time(end_time)
print*, 'resamp took ', end_time - start_time, ' s to produce ', n, ' PRNs'

call cpu_time(start_time)
do i=1,n
    call random_number(resamp_array(i))
end do
call cpu_time(end_time)
print*, 'intrin took ', end_time - start_time, ' s to produce ', n, ' PRNs'

! then save PRNs into files. Use both() to have the same random 
! underlying integers, reducing the difference purely to
! the scaling into the interval [0,1)
inquire(iolength=array_recl) uniran_array
open(11, file='uniran.out', status='replace', access='direct', action='write', recl=array_recl)
open(12, file='resamp.out', status='replace', access='direct', action='write', recl=array_recl)
open(13, file='intrin.out', status='replace', access='direct', action='write', recl=array_recl)
do i=1,n
    call both(uniran_array(i), resamp_array(i))
    call random_number(intrin_array(i))
end do
write(11, rec=1) uniran_array
write(12, rec=1) resamp_array
write(13, rec=1) intrin_array

end program prng_uniformity

原则上结果总是相同的,即使时间不同:

uniran took   0.700139999      s to produce    134217728  PRNs
resamp took   0.737253010      s to produce    134217728  PRNs
intrin took   0.773686171      s to produce    134217728  PRNs

uniran比resample_uniran更快,它比内在更快(尽管这在很大程度上取决于PRNG,Mersenne twister会慢于内在的)。

我还查看了每个方法提供的输出(使用Python):

import numpy as np
import matplotlib.pyplot as plt

def read1dbinary(fname, xdim):
    with open(fname, 'rb') as fid:
        data = np.fromfile(file=fid, dtype=np.single)
    return data

if __name__ == '__main__':
    n = 2**27
    data_uniran = read1dbinary('uniran.out', n)
    print('uniran:')
    print('{0:.15f}'.format(max(data_uniran)))
    plt.hist(data_uniran, bins=1000)
    plt.show()

    data_resamp = read1dbinary('resamp.out', n)
    print('resample uniran:')
    print('{0:.15f}'.format(max(data_resamp)))
    plt.hist(data_resamp, bins=1000)
    plt.show()

    data_intrin = read1dbinary('intrin.out', n)
    print('intrinsic:')
    print('{0:.15f}'.format(max(data_intrin)))
    plt.hist(data_intrin, bins=1000)
    plt.show()

所有三个直方图在视觉上看起来都非常好,但最高值显示uniran的缺点:

uniran:
0.999999880790710
resample uniran:
0.999999940395355
intrinsic:
0.999999940395355

我跑了几次,结果总是一样的。 resample_uniran和内在函数具有相同的最高值,而uniran&s 39也始终相同,但更低。 我想要一些强大的统计测试来表明输出的真实程度,但在尝试Anderson-Darling测试时,Kuiper的测试和Kolmogorov-Smirnov测试我遇到了this problem 。从本质上讲,您拥有的样本越多,测试发现输出错误的可能性就越大。 也许应该做一些像this这样的事情,但我还没有做到这一点。

为完整起见,module

module mod_prngtest
implicit none
integer :: iseed_i, iseed_j, iseed_k, iseed_n
integer, dimension(4) :: seed

contains

    function uniran( )
    ! Generate uniformly distributed random numbers in [0, 1) from genrand_int32
    ! New version
        integer, parameter :: dp = selected_real_kind(15, 307)
        real(dp)  ::  tmp
        real :: uniran
        tmp = 0.5_dp + 0.2328306e-9_dp * genrand_int32( )
        uniran = real(tmp)
    end function uniran

    recursive function resample_uniran( ) result(res)
    ! Generate uniformly distributed random numbers in [0, 1) from genrand_int32
    ! New version, now recursive
        integer, parameter :: dp = selected_real_kind(15, 307)
        real(dp)  ::  tmp
        real :: res
        tmp = 0.5_dp + 0.23283064365386962890625e-9_dp * genrand_int32( )
        res = real(tmp)
        if (res == 1.0) then
            res = resample_uniran()
        end if
    end function resample_uniran

    recursive subroutine both(uniran, resamp)
        integer, parameter :: dp = selected_real_kind(15, 307)
        real(dp)  ::  tmp1, tmp2
        integer :: prn
        real :: uniran, resamp

        prn = genrand_int32( )

        tmp1 = 0.5_dp + 0.2328306e-9_dp * prn
        uniran = real(tmp1)

        tmp2 = 0.5_dp + 0.23283064365386962890625e-9_dp * prn
        resamp = real(tmp2)
        if (resamp == 1.0) then
            call both(uniran, resamp)
        end if
    end subroutine both

    function genrand_real()
    ! Generate uniformly distributed random numbers in [0, 1) from genrand_int32
    ! Your version, modified by me earlier
        real genrand_real, r
        r = real(genrand_int32())
        if (r .lt. 0.0) r = r + 2.0**32
        genrand_real = r / 4294967296.0
        return
    end

    subroutine init_genrand_int32()
    ! seed the PRNG, if you don't have /dev/urandom comment out this block ...
        open(11, file='/dev/urandom', form='unformatted', access='stream')
        read(11) seed
        iseed_i=1+abs(seed( 1))
        iseed_j=1+abs(seed( 2))
        iseed_k=1+abs(seed( 3))
        iseed_n=1+abs(seed( 4))

    ! ... and use this block instead (any integer > 0)
        !iseed_i = 1253795357
        !iseed_j = 520466003
        !iseed_k = 68202083
        !iseed_n = 1964789093
    end subroutine init_genrand_int32

    function genrand_int32()
    ! From Marsaglia 1994, return pseudorandom integer over the
    ! whole range. Fortran doesn't have a function like that intrinsically.
    ! Replace this with your Mersegne twister PRNG
        implicit none
        integer :: genrand_int32
        genrand_int32=iseed_i-iseed_k
        if(genrand_int32.lt.0)genrand_int32=genrand_int32+2147483579
        iseed_i=iseed_j
        iseed_j=iseed_k
        iseed_k=genrand_int32
        iseed_n=69069*iseed_n+1013904243
        genrand_int32=genrand_int32+iseed_n
    end function genrand_int32

    subroutine init_random_seed()
        use iso_fortran_env, only: int64
        implicit none
        integer, allocatable :: seed(:)
        integer :: i, n, un, istat, dt(8), pid
        integer(int64) :: t

        call random_seed(size = n)
        allocate(seed(n))
        ! First try if the OS provides a random number generator
        open(newunit=un, file="/dev/urandom", access="stream", &
            form="unformatted", action="read", status="old", iostat=istat)
        if (istat == 0) then
            read(un) seed
            close(un)
        else
            ! Fallback to XOR:ing the current time and pid. The PID is
            ! useful in case one launches multiple instances of the same
            ! program in parallel.
            call system_clock(t)
            if (t == 0) then
                call date_and_time(values=dt)
                t = (dt(1) - 1970) * 365_int64 * 24 * 60 * 60 * 1000 &
                     + dt(2) * 31_int64 * 24 * 60 * 60 * 1000 &
                     + dt(3) * 24_int64 * 60 * 60 * 1000 &
                     + dt(5) * 60 * 60 * 1000 &
                     + dt(6) * 60 * 1000 + dt(7) * 1000 &
                     + dt(8)
            end if
            pid = getpid()
            t = ieor(t, int(pid, kind(t)))
            do i = 1, n
                seed(i) = lcg(t)
            end do
        end if
        call random_seed(put=seed)
    contains
        ! This simple PRNG might not be good enough for real work, but is
        ! sufficient for seeding a better PRNG.
        function lcg(s)
           integer :: lcg
           integer(int64) :: s
           if (s == 0) then
               s = 104729
           else
               s = mod(s, 4294967296_int64)
           end if
           s = mod(s * 279470273_int64, 4294967291_int64)
           lcg = int(mod(s, int(huge(0), int64)), kind(0))
        end function lcg
      end subroutine init_random_seed
end module mod_prngtest

答案 1 :(得分:0)

我根本不认识Fortran,但尝试这样的事情:

function genrand_real()
  real genrand_real, r
  integer genrand_int32
  r = real(IAND(genrand_int32(), 16777215))
  genrand_real = r / 16777216.0
  return
end

我冒着用我不知道的语言歪曲浮点四舍五入的好点的风险,但无论如何我都会尝试......

你的问题是你试图将太多的位压缩到32位浮点值的尾数中。这会导致舍入问题,这可能会使值太接近1.0到1.0。同时它可以导致值从0.0舍入,并且因为没有任何低于0的值可以向上舍入到0,所以它会让你获得0.0的小于正常值。

如果您尝试通过使用32位并调整比例因子以使其安全地低于1.0来解决问题,那么您仍然面临着分布不均匀的问题。但是如果你通过使用尽可能多的位来固定整数空间中的范围(32位浮点数为24位),那么你不必担心以不平衡的方式向上或向下舍入值。