我有一个简单的data.frame
mydf <- read.csv("mydf.csv")
mydf
SOC Preferred.Term Serious Non.Serious
cardiac disorders dizziness 0 0
cardiac disorders dizziness postural 0 1
cardiac disorders palpitations 0 0
cardiac disorders dyspnoea 0 1
cardiac disorders oedema peripheral 0 0
eye disorders lacrimation increased 0 3
eye disorders eye pain 0 0
eye disorders mydriasis 0 0
eye disorders vision blurred 0 0
eye disorders visual impairment 0 1
oral disorders dental caries 0 0
oral disorders tooth fracture 0 0
您可以看到标题为SOC的列有几个重复。 我想将此表示为一个表格,其中我只显示SOC列中任何唯一术语的第一个实例。 换句话说,我希望表格看起来像这样:
SOC Preferred.Term Serious Non.Serious
cardiac disorders dizziness 0 0
dizziness postural 0 1
palpitations 0 0
dyspnoea 0 1
oedema peripheral 0 0
eye disorders lacrimation increased 0 3
eye pain 0 0
mydriasis 0 0
vision blurred 0 0
visual impairment 0 1
oral disorders dental caries 0 0
tooth fracture 0 0
是否有一种简单/快捷的方法来修改我的data.frame以删除第一列中的重复项?
或者,R中是否有某种类型的演示文稿包可以创建一个表格来消除第1列中重复的术语?
感谢您提出任何建议。
答案 0 :(得分:2)
假设变量SOC
已排序且属于类字符的简单方法:
mydf$SOC[duplicated(mydf$SOC)] <- ""