R:将探索变量的分布调整为已知的非正态分布

时间:2015-10-13 22:22:37

标签: r

我有美国人口样本的数据。样本的数据集具有 N = 10,000条记录。每行由定量解释变量 E 描述,该价格影响人们返回购买物品的概率 R 。样本和群体必须具有相似的 E 分布,以确保将其链接到 R 的统计模型的有效性。

美国人口和样本中 E 的频率分布存在显着差异(见下文摘要)。特别是,正态分布似乎不能很好地描述人口分布。

Value of E  Population Distribution of E    Sample Distribution of E
0-10        56.57%  92.95%
10.01 - 20  6.90%   1.19%
20.01 - 30  8.29%   1.38%
30.01-40    5.87%   0.85%
40.01 - 50  8.18%   0.32%
50.01 - 60  4.63%   0.48%
60.01-70    1.34%   0.32%
70.01 - 80  1.50%   0.08%
80.01 - 90  0.29%   0.49%
90.01-100   3.72%   1.12%
100.01-110  2.10%   0.69%
110.01-120  0.24%   0.00%
120.01+     0.35%   0.13%

R 中有什么好处可以使样本 E - 分布更类似于人口,希望能够匹配它?我尝试使用低 E 值过滤样本数据无济于事。同时,我不太确定要使用哪些转换,因为大多数常见转换都试图将数据拟合到正态分布 - 这在这里似乎不适用。

我自己认为E的转换(可能包括权重)是允许的,行的边界删除是可接受的,并且禁止创建新的行 - 但是我会理解在类似于上下文中通常被认为允许的操作的任何输入。矿。

1 个答案:

答案 0 :(得分:0)

最好的方法是使用预测间隔。很明显,大多数样本的E值都非常低。这意味着您对E的低值E的预测值相对有信心。但是,当您远离数据范围时(即非常) E值很高,你对R的预测信心不足。