抑制r中data.frame的列中的重复值

时间:2016-11-05 21:12:29

标签: r dataframe duplicates

我有一个简单的data.frame

mydf <- read.csv("mydf.csv")
mydf

                         SOC        Preferred.Term       Serious       Non.Serious
           cardiac disorders             dizziness             0                 0
           cardiac disorders    dizziness postural             0                 1
           cardiac disorders          palpitations             0                 0
           cardiac disorders              dyspnoea             0                 1
           cardiac disorders     oedema peripheral             0                 0
               eye disorders lacrimation increased             0                 3
               eye disorders              eye pain             0                 0
               eye disorders             mydriasis             0                 0
               eye disorders        vision blurred             0                 0
               eye disorders     visual impairment             0                 1
              oral disorders         dental caries             0                 0
              oral disorders        tooth fracture             0                 0

您可以看到标题为SOC的列有几个重复。 我想将此表示为一个表格,其中我只显示SOC列中任何唯一术语的第一个实例。 换句话说,我希望表格看起来像这样:

                         SOC        Preferred.Term       Serious       Non.Serious
           cardiac disorders             dizziness             0                 0
                                dizziness postural             0                 1
                                      palpitations             0                 0
                                          dyspnoea             0                 1
                                 oedema peripheral             0                 0
               eye disorders lacrimation increased             0                 3
                                          eye pain             0                 0
                                         mydriasis             0                 0
                                    vision blurred             0                 0
                                 visual impairment             0                 1
              oral disorders         dental caries             0                 0
                                    tooth fracture             0                 0

是否有一种简单/快捷的方法来修改我的data.frame以删除第一列中的重复项?

或者,R中是否有某种类型的演示文稿包可以创建一个表格来消除第1列中重复的术语?

感谢您提出任何建议。

1 个答案:

答案 0 :(得分:2)

假设变量SOC已排序且属于类字符的简单方法:

mydf$SOC[duplicated(mydf$SOC)] <- ""