我有mixed dataframe个字符和数字变量。
city,hs_cd,sl_no,col_01,col_02,col_03
Austin,1,2,,46,Female
Austin,1,3,,32,Male
Austin,1,4,,27,Male
Austin,1,5,,20,Female
Austin,2,2,,42,Female
Austin,2,1,,52,Male
Austin,2,3,,25,Male
Austin,2,4,,22,Female
Austin,3,3,,30,Female
Austin,3,1,,65,Female
我想将数据框中的所有小写字符转换为大写。有没有办法一次性完成这一操作,而不是在每个字符变量上反复进行?
答案 0 :(得分:73)
从以下示例数据开始:
df <- data.frame(v1=letters[1:5],v2=1:5,v3=letters[10:14],stringsAsFactors=FALSE)
v1 v2 v3
1 a 1 j
2 b 2 k
3 c 3 l
4 d 4 m
5 e 5 n
您可以使用:
data.frame(lapply(df, function(v) {
if (is.character(v)) return(toupper(v))
else return(v)
}))
给出了:
v1 v2 v3
1 A 1 J
2 B 2 K
3 C 3 L
4 D 4 M
5 E 5 N
答案 1 :(得分:42)
从dplyr包中,您还可以将mutate_all()函数与toupper()结合使用。这将影响字符和因子类。
library(dplyr)
df <- mutate_all(df, funs=toupper)
答案 2 :(得分:6)
对于那些使用这些答案的人来说,这里有一个评论。朱巴的答案很棒,因为如果您的变量是数字或字符串,它是非常有选择性的。但是,如果你有一个组合(例如a1,b1,a2,b2)等,它将不会正确转换字符。
正如@Trenton Hoffman所说,
library(dplyr)
df <- mutate_each(df, funs(toupper))
影响字符和因子类,适用于“混合变量”;例如如果您的变量同时包含字符和数字值(例如a1),则两者都将转换为因子。总的来说,这并不是太令人担忧,但如果您最终想要匹配data.frames,例如
df3 <- df1[df1$v1 %in% df2$v1,]
其中df1已被转换,df2包含未转换的data.frame 或类似的,这可能会导致一些问题。解决方法是你必须简单地运行
df2 <- df2 %>% mutate_each(funs(toupper), v1)
#or
df2 <- df2 %>% mutate_each(df2, funs(toupper))
#and then
df3 <- df1[df1$v1 %in% df2$v1,]
如果您使用基因组数据,那么知道这可以派上用场。
答案 3 :(得分:6)
在R
中使用apply函数很简单f <- apply(f,2,toupper)
无需检查列是字符还是任何其他类型。
答案 4 :(得分:1)
如果您需要处理包含可以使用的因素的data.frames:
df = data.frame(v1=letters[1:5],v2=1:5,v3=letters[10:14],v4=as.factor(letters[1:5]),v5=runif(5),stringsAsFactors=FALSE)
df
v1 v2 v3 v4 v5
1 a 1 j a 0.1774909
2 b 2 k b 0.4405019
3 c 3 l c 0.7042878
4 d 4 m d 0.8829965
5 e 5 n e 0.9702505
sapply(df,class)
v1 v2 v3 v4 v5
"character" "integer" "character" "factor" "numeric"
使用mutate_each_将因子转换为字符,然后将全部转换为大写
upper_it = function(X){X %>% mutate_each_( funs(as.character(.)), names( .[sapply(., is.factor)] )) %>%
mutate_each_( funs(toupper), names( .[sapply(., is.character)] ))} # convert factor to character then uppercase
给予
upper_it(df)
v1 v2 v3 v4
1 A 1 J A
2 B 2 K B
3 C 3 L C
4 D 4 M D
5 E 5 N E
虽然
sapply( upper_it(df),class)
v1 v2 v3 v4 v5
"character" "integer" "character" "character" "numeric"
答案 5 :(得分:1)
以 _if
、_at
、_all
结尾的作用域动词已被 packageVersion("dplyr")
1.0.0 或更新版本中的 across()
取代。要使用 across
执行此操作:
df %>%
dplyr::mutate(across(where(is.character), toupper))
across
的第一个参数是使用 tidyselect 语法转换哪些列。以上将在所有字符列中应用该函数。across
的第二个参数是要应用的函数。这也支持 lambda 风格的语法:~ toupper(.x)
,使设置附加函数参数变得简单明了。数据
df <- structure(list(city = c("Austin", "Austin", "Austin", "Austin",
"Austin", "Austin", "Austin", "Austin", "Austin", "Austin"),
hs_cd = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L), sl_no = c(2L,
3L, 4L, 5L, 2L, 1L, 3L, 4L, 3L, 1L), col_01 = c(NA, NA, NA,
NA, NA, NA, NA, NA, NA, NA), col_02 = c(46L, 32L, 27L, 20L,
42L, 52L, 25L, 22L, 30L, 65L), col_03 = c("Female", "Male",
"Male", "Female", "Female", "Male", "Male", "Female", "Female",
"Female")), class = "data.frame", row.names = c(NA, -10L))
答案 6 :(得分:0)
另一种选择是结合使用tidyverse软件包中的mutate_if()和str_to_uper()函数:
df %>% mutate_if(is.character, str_to_upper) -> df
这会将数据框中的所有字符串变量转换为大写。 str_to_lower()做相反的事情。
答案 7 :(得分:0)
或者,如果您只想将某一行转换为大写,请使用以下代码:
df [[1]] <-toupper(df [[1]])