所以我有1个用户群,这个人口根据他们的出生日期被分成用户的子群体。有大约20个不同的用户桶属于所需的年龄组。
问题是看看不同的存储桶随着时间的推移如何与系统交互。
每个桶的大小各不相同,最大的桶有大约20,000个用户(在分发的中点),两个尾端各有<200个用户。
为了回答一段时间内系统使用的问题,我已经清理了数据,并从每个桶中采集了最低人口数量的.9样本。
然后我重新取样N次(可以在100到10000之间或以下)。这些重新样本的平均值接近于每个桶的子群平均值,我发现大多数交互度量(1,2,3,4,5,6个月)的尾部随着时间推移最低用户数是最活跃的。 (这可能表明较高成员存储桶包含大部分未处于活动状态的用户,或者那些处于活动状态的用户只是不是活动的不同用户存储桶)。
我对每个存储桶进行了快速总结,以确保没有任何不规则性,实际上数据显示最低存储桶确实具有比其他存储桶更高的四分位数,平均值,最低和最高数据值。
我研究了数据收集方法,以确保在获取数据和查看各种数据点时没有错误,它确实支持绘制重新采样值的结果。
我的问题是,如果我根据每个独立的桶独立采集样本量,我的直觉告诉我没有,因为所有的桶属于同一群体,如果我在桶上采样,每个样本必须公平,因此使用N来自最小存储桶的数据点数。
不涉及建模,这只是查看每月每个用户桶的平均使用次数。
我的方法或多或少走在正确的轨道上?