例如,我有以下数据框
ID A/B Test
1234
3456
6789
3987
我想根据50%的分布情况将随机数“ Y”或“ N”随机分配给A / B测试列。换句话说,我想分割df并确保50%的记录具有“ Y”,而50%的记录具有“ N”,但是这些值应该随机分配。
输出数据框:
ID A/B Test
1234 Y
3456 N
6789 N
3987 Y
请帮助!
谢谢
答案 0 :(得分:3)
您可以使用np.random.choice
:
df['A/B Test'] = np.random.choice(['Y','N'], size=len(df))
请注意,如果您的数据足够长,并且您将大致拥有相同数量的Y
和N
,此方法将起作用。也就是说,您可能有9995 Y
和10005 N
。