前两列按前100名排序

时间:2019-05-09 16:08:41

标签: apache-spark

我有一个数据框,其中包含两列,这些数据框指示相应网络和区域内每个市场的市场份额以及与该区域内其他网络相比的网络市场份额。外观如下:

region network  market airDate  price network_mkt_share mkt_mkt_share
US     AMT      JFK    20180101 50    10.20             2.25
US     AMT      ATL    20180102 70    10.20             3.35
US     LXM      LAX    20180103 90    23.23             2.22
CA     AXM      WDX    20180103 60    5.23              10

因此,例如,网络AMT的市场份额为10.20,这恰好是该区域内市场出现的次数。美国区域网络AMT的市场肯尼迪(JFK)市场份额为2.25,这意味着该区域内该网络中的所有市场份额为2.25%。

现在我要做的是获得每个区域的前100个网络和每个网络的前100个市场。如果我们拥有排名前100位的网络,那么我们就不必为没有排名的网络计算前100个市场。因此,我希望结果数据框由该区域内的前100个网络进行排序,并在每个前100个网络内对每个市场的前100个市场进行排序。我怎样才能做到这一点?

0 个答案:

没有答案