Question

例如，我有以下数据框

ID     A/B Test
1234
3456
6789
3987

我想根据50％的分布情况将随机数“ Y”或“ N”随机分配给A / B测试列。换句话说，我想分割df并确保50％的记录具有“ Y”，而50％的记录具有“ N”，但是这些值应该随机分配。

输出数据框：

ID     A/B Test
1234   Y
3456   N
6789   N
3987   Y

请帮助！

谢谢

Answer 1

您可以使用np.random.choice：

df['A/B Test'] = np.random.choice(['Y','N'], size=len(df))

请注意，如果您的数据足够长，并且您将大致拥有相同数量的Y和N，此方法将起作用。也就是说，您可能有9995 Y和10005 N。