应用错误收集

所以我有1个用户群，这个人口根据他们的出生日期被分成用户的子群体。有大约20个不同的用户桶属于所需的年龄组。

问题是看看不同的存储桶随着时间的推移如何与系统交互。

每个桶的大小各不相同，最大的桶有大约20,000个用户（在分发的中点），两个尾端各有<200个用户。

为了回答一段时间内系统使用的问题，我已经清理了数据，并从每个桶中采集了最低人口数量的.9样本。

然后我重新取样N次（可以在100到10000之间或以下）。这些重新样本的平均值接近于每个桶的子群平均值，我发现大多数交互度量（1,2,3,4,5,6个月）的尾部随着时间推移最低用户数是最活跃的。（这可能表明较高成员存储桶包含大部分未处于活动状态的用户，或者那些处于活动状态的用户只是不是活动的不同用户存储桶）。

我对每个存储桶进行了快速总结，以确保没有任何不规则性，实际上数据显示最低存储桶确实具有比其他存储桶更高的四分位数，平均值，最低和最高数据值。

我研究了数据收集方法，以确保在获取数据和查看各种数据点时没有错误，它确实支持绘制重新采样值的结果。

我的问题是，如果我根据每个独立的桶独立采集样本量，我的直觉告诉我没有，因为所有的桶属于同一群体，如果我在桶上采样，每个样本必须公平，因此使用N来自最小存储桶的数据点数。

不涉及建模，这只是查看每月每个用户桶的平均使用次数。

我的方法或多或少走在正确的轨道上？

根据最小子群设置多个子群的最小样本量

0 个答案: