我需要从10亿个数据库中提取1%的样本。这个1%应该平均分配在一个数字变量上。例如,如果数据集有1000行且数值变量的值为1-10,则输出样本的数据集包含每个值的每一行。
答案 0 :(得分:0)
是的,可以使用random
模块在Python中编写任何标准采样方案。
您最后的评论描述了一个simple random sample。更多思考,我相信您以前的评论描述stratfied sampling。分层抽样是否是一个好主意取决于您的问题和数据。统计分析应与抽样方法相匹配。但是,这些问题超出了stackoverflow的范围。
如果您尝试编写特定方法并遇到特定编程问题,那么在这里询问它将是主题。