Question

这是一篇自我回答的帖子。常见问题是在给定的开始日期和结束日期之间随机生成日期。

有两种情况需要考虑：

带有时间组件的随机日期，
没有时间的随机日期

例如，假设某个开始日期2015-01-01和结束日期2018-01-01，如何使用pandas在此范围之间对N个随机日期进行抽样？

Answer 1

转换为unix时间戳是否可接受？

def random_dates(start, end, n=10):

    start_u = start.value//10**9
    end_u = end.value//10**9

    return pd.to_datetime(np.random.randint(start_u, end_u, n), unit='s')

示例运行：

start = pd.to_datetime('2015-01-01')
end = pd.to_datetime('2018-01-01')
random_dates(start, end)

DatetimeIndex(['2016-10-08 07:34:13', '2015-11-15 06:12:48',
               '2015-01-24 10:11:04', '2015-03-26 16:23:53',
               '2017-04-01 00:38:21', '2015-05-15 03:47:54',
               '2015-06-24 07:32:32', '2015-11-10 20:39:36',
               '2016-07-25 05:48:09', '2015-03-19 16:05:19'],
              dtype='datetime64[ns]', freq=None)

修改

根据@smci的评论，我写了一个函数来容纳1和2，并在函数内部进行了一些解释。

def random_datetimes_or_dates(start, end, out_format='datetime', n=10): ''' unix timestamp is in ns by default. I divide the unix time value by 10**9 to make it seconds (or 24*60*60*10**9 to make it days). The corresponding unit variable is passed to the pd.to_datetime function. Values for the (divide_by, unit) pair to select is defined by the out_format parameter. for 1 -> out_format='datetime' for 2 -> out_format=anything else ''' (divide_by, unit) = (10**9, 's') if out_format=='datetime' else (24*60*60*10**9, 'D') start_u = start.value//divide_by end_u = end.value//divide_by return pd.to_datetime(np.random.randint(start_u, end_u, n), unit=unit)

示例运行：

random_datetimes_or_dates(start, end, out_format='datetime') DatetimeIndex(['2017-01-30 05:14:27', '2016-10-18 21:17:16', '2016-10-20 08:38:02', '2015-09-02 00:03:08', '2015-06-04 02:38:12', '2016-02-19 05:22:01', '2015-11-06 10:37:10', '2017-12-17 03:26:02', '2017-11-20 06:51:32', '2016-01-02 02:48:03'], dtype='datetime64[ns]', freq=None) random_datetimes_or_dates(start, end, out_format='not datetime') DatetimeIndex(['2017-05-10', '2017-12-31', '2017-11-10', '2015-05-02', '2016-04-11', '2015-11-27', '2015-03-29', '2017-05-21', '2015-05-11', '2017-02-08'], dtype='datetime64[ns]', freq=None)

Answer 2

`np.random.randn` + `to_timedelta`

这解决了案例（1）。您可以通过生成timedelta个对象的随机数组并将其添加到start日期来实现此目的。

def random_dates(start, end, n, unit='D', seed=None):
    if not seed:  # from piR's answer
        np.random.seed(0)

    ndays = (end - start).days + 1
    return pd.to_timedelta(np.random.rand(n) * ndays, unit=unit) + start

>>> np.random.seed(0)
>>> start = pd.to_datetime('2015-01-01')
>>> end = pd.to_datetime('2018-01-01')
>>> random_dates(start, end, 10)
DatetimeIndex([   '2016-08-25 01:09:42.969600',
                  '2017-02-23 13:30:20.304000',
                  '2016-10-23 05:33:15.033600',
               '2016-08-20 17:41:04.012799999',
               '2016-04-09 17:59:00.815999999',
                  '2016-12-09 13:06:00.748800',
                  '2016-04-25 00:47:45.974400',
                  '2017-09-05 06:35:58.444800',
                  '2017-11-23 03:18:47.347200',
                  '2016-02-25 15:14:53.894400'],
              dtype='datetime64[ns]', freq=None)

这将生成带有时间组件的日期。

可悲的是，rand不支持replace=False，因此如果您想要唯一日期，则需要一个两步过程：1）生成非唯一日期组件，并且2）生成唯一的秒/毫秒组件，然后将两者组合在一起。

`np.random.randint` + `to_timedelta`

这解决了案例（2）。您可以修改上面的random_dates来生成随机整数而不是随机浮点数：

def random_dates2(start, end, n, unit='D', seed=None):
    if not seed:  # from piR's answer
        np.random.seed(0)

    ndays = (end - start).days + 1
    return start + pd.to_timedelta(
        np.random.randint(0, ndays, n), unit=unit
    )

>>> random_dates2(start, end, 10)
DatetimeIndex(['2016-11-15', '2016-07-13', '2017-04-15', '2017-02-02',
               '2017-10-30', '2015-10-05', '2016-08-22', '2017-12-30',
               '2016-08-23', '2015-11-11'],
              dtype='datetime64[ns]', freq=None)

要生成其他频率的日期，可以使用unit的不同值调用上述函数。此外，您可以添加参数freq并根据需要调整函数调用。

如果您想要唯一随机日期，可以将np.random.choice与replace=False一起使用：

def random_dates2_unique(start, end, n, unit='D', seed=None):
    if not seed:  # from piR's answer
        np.random.seed(0)

    ndays = (end - start).days + 1
    return start + pd.to_timedelta(
        np.random.choice(ndays, n, replace=False), unit=unit
    )

<强>性能

仅对基于Case（1）的方法进行基准测试，因为Case（2）实际上是一种特殊情况，任何方法都可以使用dt.floor。

的功能

def cs(start, end, n): ndays = (end - start).days + 1 return pd.to_timedelta(np.random.rand(n) * ndays, unit='D') + start def akilat90(start, end, n): start_u = start.value//10**9 end_u = end.value//10**9 return pd.to_datetime(np.random.randint(start_u, end_u, n), unit='s') def piR(start, end, n): dr = pd.date_range(start, end, freq='H') # can't get better than this :-( return pd.to_datetime(np.sort(np.random.choice(dr, n, replace=False))) def piR2(start, end, n): dr = pd.date_range(start, end, freq='H') a = np.arange(len(dr)) b = np.sort(np.random.permutation(a)[:n]) return dr[b]

基准代码

from timeit import timeit import pandas as pd import matplotlib.pyplot as plt res = pd.DataFrame( index=['cs', 'akilat90', 'piR', 'piR2'], columns=[10, 20, 50, 100, 200, 500, 1000, 2000, 5000], dtype=float ) for f in res.index: for c in res.columns: np.random.seed(0) start = pd.to_datetime('2015-01-01') end = pd.to_datetime('2018-01-01') stmt = '{}(start, end, c)'.format(f) setp = 'from __main__ import start, end, c, {}'.format(f) res.at[f, c] = timeit(stmt, setp, number=30) ax = res.div(res.min()).T.plot(loglog=True) ax.set_xlabel("N"); ax.set_ylabel("time (relative)"); plt.show()

Answer 3

我们可以通过使用datetime64只是一个重新命名int64的事实来加速@ akilat90的双重方法（在@ coldspeed＆＃39; s基准测试中），因此我们可以查看 - 投：

def pp(start, end, n):
    start_u = start.value//10**9
    end_u = end.value//10**9

    return pd.DatetimeIndex((10**9*np.random.randint(start_u, end_u, n)).view('M8[ns]'))

Answer 4

`numpy.random.choice`

您可以利用Numpy的随机选择。 choice可能比大型data_ranges更有问题。例如，太大会导致MemoryError。它需要存储整个内容以便选择随机位。

random_dates('2015-01-01', '2018-01-01', 10, 'ns', seed=[3, 1415])

MemoryError

此外，这需要排序。

def random_dates(start, end, n, freq, seed=None):
    if seed is not None:
        np.random.seed(seed)

    dr = pd.date_range(start, end, freq=freq)
    return pd.to_datetime(np.sort(np.random.choice(dr, n, replace=False)))

random_dates('2015-01-01', '2018-01-01', 10, 'H', seed=[3, 1415])

DatetimeIndex(['2015-04-24 02:00:00', '2015-11-26 23:00:00',
               '2016-01-18 00:00:00', '2016-06-27 22:00:00',
               '2016-08-12 17:00:00', '2016-10-21 11:00:00',
               '2016-11-07 11:00:00', '2016-12-09 23:00:00',
               '2017-02-20 01:00:00', '2017-06-17 18:00:00'],
              dtype='datetime64[ns]', freq=None)

`numpy.random.permutation`

与其他答案类似。但是，我喜欢这个答案，因为它会对datetimeindex生成的date_range进行切片并自动返回另一个datetimeindex。

def random_dates_2(start, end, n, freq, seed=None):
    if seed is not None:
        np.random.seed(seed)

    dr = pd.date_range(start, end, freq=freq)
    a = np.arange(len(dr))
    b = np.sort(np.random.permutation(a)[:n])
    return dr[b]

Answer 5

我发现一个新的基础库生成了日期的范围，看起来比我pandas.data_range快一点，相信answer

from dateutil.rrule import rrule, DAILY
import datetime, random
def pick(start,end,n):
    return (random.sample(list(rrule(DAILY, dtstart=start,until=end)),n))


pick(datetime.datetime(2010, 2, 1, 0, 0),datetime.datetime(2010, 2, 5, 0, 0),2)
[datetime.datetime(2010, 2, 3, 0, 0), datetime.datetime(2010, 2, 2, 0, 0)]

Answer 6

只需我的两分钱，使用date_range和sample：

def random_dates(start, end, n, seed=1, replace=False):
    dates = pd.date_range(start, end).to_series()
    return dates.sample(n, replace=replace, random_state=seed)

random_dates("20170101","20171223", 10, seed=1)
Out[29]: 
2017-10-01   2017-10-01
2017-08-23   2017-08-23
2017-11-30   2017-11-30
2017-06-15   2017-06-15
2017-11-18   2017-11-18
2017-10-31   2017-10-31
2017-07-31   2017-07-31
2017-03-07   2017-03-07
2017-09-09   2017-09-09
2017-10-15   2017-10-15
dtype: datetime64[ns]

Answer 7

我认为这是仅在熊猫DateFrame中创建日期字段的简单解决方案

list1 = []
for x in range(0,365):
    list1.append(x)
date = pd.DataFrame(pd.to_datetime(list1, unit='D',origin=pd.Timestamp('2018-01-01')))

在pandas中生成给定范围内的随机日期

7 个答案:

`np.random.randn` + `to_timedelta`

`np.random.randint` + `to_timedelta`

<强>性能

`numpy.random.choice`

`numpy.random.permutation`

在pandas中生成给定范围内的随机日期

7 个答案:

np.random.randn + to_timedelta

np.random.randint + to_timedelta

<强>性能

numpy.random.choice

numpy.random.permutation

`np.random.randn` + `to_timedelta`

`np.random.randint` + `to_timedelta`

`numpy.random.choice`

`numpy.random.permutation`