如何组织和排序变量的观察?

时间:2016-05-07 20:42:00

标签: sorting dataset stata rank cumulative-sum

我有这个数据集包含几年的世界双边贸易数据。 我想确定哪些商品是数据集考虑的时间跨度最多的商品。

数据集由以下变量组成:

  • "一年"
  • " hs2",包含一个两位数的数字,用于说明导出的商品
  • " exp_val",给出该特定年份的出口价值
  • " exp_qty",在某一年内提供商品的出口数量

基本上,我想得到一定数量的出口数量的总和,所以输出如

hs2  exp_qty
01   34892
02   54548
...   ...

等等。现在,专栏" hs2"给了我大量的观察结果,你可以理解,它们会多次重复(因为变量在时间和目的地国家不同)。因此,任务是将每个hs2数字只有一次,并且相应的值为" total"出口。

另外(但这只是一个加号,我可以自己查看数字),按照exp_qty排序结果会很好,所以要按数量对出口货物进行排序。

1 个答案:

答案 0 :(得分:1)

以下内容可能是您需要的开始。

collapse (sum) exp_qty, by(hs2)
gsort -exp_qty

collapse将内存中的数据汇总为hs2的每个值的一个观察值,将exp_qty的值相加。 gsort然后按exp_qty的降序值对折叠数据进行排序,以便第一次观察最大。有关详细信息,请参阅help collapsehelp gsort