我有一个数据框,我目前正按照我有大约一千个项目的类别进行分组。这会创建一个过宽的图表,我实际上对大多数数据不感兴趣,因为它们都是相似的
我想要的只是看到超过阈值的项目的最大值,并可能将所有其他项目组合成一个"其他"类别。
有没有预制的方法可以做到这一点?
答案 0 :(得分:1)
fct_lump()
可能有用。
您需要先将值处理为比例,但它具有参数prop
,其中"保留至少prop
时间内出现的值" (它将其余部分分组为"其他"级别)。
对于要保留的级别数(或者将其余级别分组为"其他"级别),还有一个n
参数。