我经常发现自己想在样本数据帧上测试某些功能。
使用数字创建随机数据帧非常容易,如下所示:
pd.DataFrame(np.random.randn(5, 3), columns=list('ABC'))
或
pd.DataFrame(np.random.randint(2,10,(5,3)), columns=list('ABC'))
,如果您想进一步控制虚拟数据中的值。
我想知道是否有一个更通用的库,可以帮助您创建各种类型的伪数据(例如datetime,categorial等)?
答案 0 :(得分:0)
看着你shall find
我做了一点改动,以消除numpy警告:
import pandas as pd
import numpy as np
import datetime
dft = pd.DataFrame({
'A' : ['spam', 'eggs', 'spam', 'eggs'] * 6,
'B' : ['alpha', 'beta', 'gamma'] * 8,
'C' : [np.random.choice(pd.date_range(datetime.datetime(2013,1,1),datetime.datetime(2013,1,3))) for i in range(24)],
'D' : np.random.randn(24),
'E' : np.random.randint(2,10,24),
'F' : [np.random.choice(['rand_1', 'rand_2', 'rand_4', 'rand_6']) for i in range(24)],
})
dft