我有一个数据集
col1 col2 col3
A 1 3
A 2 4
B 1 2
B 1 4
C 2 1
并且想要为cols 1和cols 2的每个唯一组合随机保留一行,因此所需的输出将类似于:
col1 col2 col3
A 1 3
A 2 4
B 1 (2 or 4)
C 2 1
col1 = B且col2 = 1的col3结果是2或4的概率相等。
我希望这种方法具有可复制性,因此使用种子或样品的解决方案是理想的。在搜索时,我发现此线程是一个类似的问题(https://stackoverflow.com/posts/16159828),但是我不确定如何将其推广到我的问题。