使用R或Python进行分层抽样

时间:2018-06-13 07:23:28

标签: python r sampling statistical-sampling

我有一个包含400K观测值和250个特征的数据集。我想进行分层抽样。

我引用了许多链接,但它们都是经过一两个变量示例,包括Target。

任何人都可以帮助我如何使用R / Python进行分层抽样。

感谢Adavance!

1 个答案:

答案 0 :(得分:0)

如果您首先对data.frame进行分组,则可以使用dplyr的sample_n()

对每个组进行采样
library(dplyr)
sample.df <- df %>% group_by( ID ) %>% sample_n( 10 )