我有一个大约35000个案例X 32个变量的大数据集
其中一个变量是Description
,其中给出了状态描述。例如:患者患有缺血性中风。
现在我想创建一个数据框,在其中我放置所有单词" stroke"," STROKE"或者"中风"在变量Description
中找到。
有人能建议一种有效的方法吗?因为现在我只是以非常低效的方式手动添加所有内容:
df1<-rbind(df[1,],df[2,],df[3,]
它有效,但它难以置信地优雅,容易出错。
答案 0 :(得分:1)
在这里,我创建了一些可以使用的示例数据。
a <- c(1:10)
b <- c(11:20)
description <- c("Stroke","ALS","Parkinsons","STROKE","STROKE","stroke","Alzheimers","Stroke","ALS","Parkinsons")
df<-data.frame(a,b,description)
df
a b description
1 1 11 Stroke
2 2 12 ALS
3 3 13 Parkinsons
4 4 14 STROKE
5 5 15 STROKE
6 6 16 stroke
7 7 17 Alzheimers
8 8 18 Stroke
9 9 19 ALS
10 10 20 Parkinsons
使用此代码,您可以删除与“Stroke”,“STROKE”或“stroke”无关的每个案例(行):
df1<-df[!(df$description!="STROKE" & df$description!="Stroke" & df$description!="stroke"),]
df1
a b description
1 1 11 Stroke
4 4 14 STROKE
5 5 15 STROKE
6 6 16 stroke
8 8 18 Stroke
希望这就是你要找的东西。