我有一个四列数据框:
prev (String) | curr (String) | n (int)
other-g | Abba | 5
other-e | Abba | 2
other-g | Bert | 9
在curr
和n
中,有多个具有相同prev
属性的实例不同。我想根据不同的prev
属性对它们进行汇总,并计算n
属性。
它应该导致类似:
curr:prev_A(59.3% - >分享所有n
),prev_B(23,2%),...
问题是我想从一个大的(> 1GB .tsv)数据帧中随机选择大约1000个不同的curr
属性。我会尝试从数据框中随机选择一行,然后查询相应的curr
以查找具有该属性的所有实例,但这看起来相当复杂,我甚至没有让它工作。这样做的好方法是什么?