我有一个包含400K观测值和250个特征的数据集。我想进行分层抽样。
我引用了许多链接,但它们都是经过一两个变量示例,包括Target。
任何人都可以帮助我如何使用R / Python进行分层抽样。
感谢Adavance!
答案 0 :(得分:0)
如果您首先对data.frame进行分组,则可以使用dplyr的sample_n()
对每个组进行采样library(dplyr)
sample.df <- df %>% group_by( ID ) %>% sample_n( 10 )