我有美国人口样本的数据。样本的数据集具有 N = 10,000条记录。每行由定量解释变量 E 描述,该价格影响人们返回购买物品的概率 R 。样本和群体必须具有相似的 E 分布,以确保将其链接到 R 的统计模型的有效性。
美国人口和样本中 E 的频率分布存在显着差异(见下文摘要)。特别是,正态分布似乎不能很好地描述人口分布。
Value of E Population Distribution of E Sample Distribution of E
0-10 56.57% 92.95%
10.01 - 20 6.90% 1.19%
20.01 - 30 8.29% 1.38%
30.01-40 5.87% 0.85%
40.01 - 50 8.18% 0.32%
50.01 - 60 4.63% 0.48%
60.01-70 1.34% 0.32%
70.01 - 80 1.50% 0.08%
80.01 - 90 0.29% 0.49%
90.01-100 3.72% 1.12%
100.01-110 2.10% 0.69%
110.01-120 0.24% 0.00%
120.01+ 0.35% 0.13%
在 R 中有什么好处可以使样本 E - 分布更类似于人口,希望能够匹配它?我尝试使用低 E 值过滤样本数据无济于事。同时,我不太确定要使用哪些转换,因为大多数常见转换都试图将数据拟合到正态分布 - 这在这里似乎不适用。
我自己认为E的转换(可能包括权重)是允许的,行的边界删除是可接受的,并且禁止创建新的行 - 但是我会理解在类似于上下文中通常被认为允许的操作的任何输入。矿。
答案 0 :(得分:0)
最好的方法是使用预测间隔。很明显,大多数样本的E值都非常低。这意味着您对E的低值E的预测值相对有信心。但是,当您远离数据范围时(即非常) E值很高,你对R的预测信心不足。