我有这个数据集包含几年的世界双边贸易数据。 我想确定哪些商品是数据集考虑的时间跨度最多的商品。
数据集由以下变量组成:
基本上,我想得到一定数量的出口数量的总和,所以输出如
hs2 exp_qty
01 34892
02 54548
... ...
等等。现在,专栏" hs2"给了我大量的观察结果,你可以理解,它们会多次重复(因为变量在时间和目的地国家不同)。因此,任务是将每个hs2数字只有一次,并且相应的值为" total"出口。
另外(但这只是一个加号,我可以自己查看数字),按照exp_qty排序结果会很好,所以要按数量对出口货物进行排序。
答案 0 :(得分:1)
以下内容可能是您需要的开始。
collapse (sum) exp_qty, by(hs2)
gsort -exp_qty
collapse
将内存中的数据汇总为hs2的每个值的一个观察值,将exp_qty的值相加。 gsort
然后按exp_qty
的降序值对折叠数据进行排序,以便第一次观察最大。有关详细信息,请参阅help collapse
和help gsort
。