如何在不使用expand
的情况下在Stata中执行非常大的数据集扩展?在SAS中,通过使用一些代码(我不知道),您可以保留数据集的实际大小(不会使其爆炸),但仍然将其视为扩展它。
我目前的销售数据包含12M +观察值。其中一个变量,即出售的单位,其价值可以在1到1000之间。我需要了解所有可用品牌的单价分布图。我发现我需要进行扩展,以便根据销售频率捕获图表上的真实价格分布。
brand units_sold price_per_unit
A 11 15.9876
B 3 17.22727
C 8 15.86364
D 8 17.22727
E 2 17.22727
F 3 17.22727
G 1 17.22727
H 8 18.13636
I 3 18.13636
G 4 17.22727
答案 0 :(得分:1)
您可以使用指示“重复”价格观察数量的频率权重:
clear
// Fake Data
input str1 brand int units_sold double price_per_unit
A 11 15.9876
B 3 17.22727
C 8 15.86364
D 8 17.22727
E 2 17.22727
F 3 17.22727
G 1 17.22727
H 8 18.13636
I 3 18.13636
G 4 17.22727
end
// Histogram and summarize with weights
tw hist price_per_unit [fweight=units_sold], frac
sum price_per_unit [fweight=units_sold], detail