提取规范化的样本python

时间:2015-07-09 14:50:05

标签: python-3.x dataset extraction

我需要从10亿个数据库中提取1%的样本。这个1%应该平均分配在一个数字变量上。例如,如果数据集有1000行且数值变量的值为1-10,则输出样本的数据集包含每个值的每一行。

1 个答案:

答案 0 :(得分:0)

是的,可以使用random模块在​​Python中编写任何标准采样方案。

您最后的评论描述了一个simple random sample。更多思考,我相信您以前的评论描述stratfied sampling。分层抽样是否是一个好主意取决于您的问题和数据。统计分析应与抽样方法相匹配。但是,这些问题超出了stackoverflow的范围。

如果您尝试编写特定方法并遇到特定编程问题,那么在这里询问它将是主题。