有多少是“大”数据集?

时间:2009-05-24 08:08:00

标签: database large-data-volumes

假设无限存储,其中大小/体积/物理(度量,千兆字节/字节)仅与元素及其标签的数量无关,统计模式应该已经出现在30个子集中,但是您是否同意少于1000个子集太小而无法测试,并且至少10000个不同的子集/“元素”,“条目”/实体是“大数据集”。还是更大? 感谢

1 个答案:

答案 0 :(得分:3)

我不确定我理解你的问题,但听起来你正在试图询问你需要采样多少数据元素以确保一定程度的准确性(30是一个神奇的数字来自经常出现的中心极限定理。

如果是这种情况,您需要的样本量取决于置信水平和置信区间。如果您想要95%置信水平和5%置信区间(即您希望95%确信您从样本中确定的比例在完整数据集中的比例的5%以内),您最终需要一个样本量不超过385个元素。置信度越高,您想要生成的置信区间越小,您需要的样本量就越大。

以下是关于mathematics of determining sample size的精彩讨论 如果你只想运行这些数字,可以使用sample size calculator