如何将数据框列转换为数字类型?

时间:2010-02-18 12:17:58

标签: r dataframe type-conversion

如何将数据框列转换为数字类型?

18 个答案:

答案 0 :(得分:248)

由于(仍然)没有人检查标记,我认为你有一些实际问题,主要是因为你没有指定要转换为numeric的矢量类型。我建议您应用transform函数来完成任务。

现在我要证明某些“转换异常”:

# create dummy data.frame
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)

让我们一瞥data.frame

> d
  char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5

让我们跑:

> sapply(d, mode)
       char   fake_char         fac    char_fac         num 
"character" "character"   "numeric"   "numeric"   "numeric" 
> sapply(d, class)
       char   fake_char         fac    char_fac         num 
"character" "character"    "factor"    "factor"   "integer" 

现在你可能会问自己“哪里有异常?”好吧,我在R中碰到了很奇怪的东西,这不是 最混乱的事情,但它会让你感到困惑,特别是如果你在睡觉前读到这篇文章。

这里说:前两列是character。我故意打电话给2 nd 一个fake_char。找出此character变量与Dirk在其回复中创建的变量的相似性。它实际上是转换为numerical的{​​{1}}向量。 3 rd 和4 th 列为character,最后一列为“纯粹”factor

如果您使用numeric功能,则可以将transform转换为fake_char,而不是numeric变量本身。

char

但是如果你在> transform(d, char = as.numeric(char)) char fake_char fac char_fac num 1 NA 1 1 a 1 2 NA 2 2 b 2 3 NA 3 3 c 3 4 NA 4 4 d 4 5 NA 5 5 e 5 Warning message: In eval(expr, envir, enclos) : NAs introduced by coercion fake_char做同样的事情,你会很幸运,并且没有NA的侥幸:

char_fac

如果您保存已转换的> transform(d, fake_char = as.numeric(fake_char), char_fac = as.numeric(char_fac)) char fake_char fac char_fac num 1 a 1 1 1 1 2 b 2 2 2 2 3 c 3 3 3 3 4 d 4 4 4 4 5 e 5 5 5 5 并检查data.framemode,您将获得:

class

所以,结论是: 是的,您可以将> D <- transform(d, fake_char = as.numeric(fake_char), char_fac = as.numeric(char_fac)) > sapply(D, mode) char fake_char fac char_fac num "character" "numeric" "numeric" "numeric" "numeric" > sapply(D, class) char fake_char fac char_fac num "character" "numeric" "factor" "numeric" "integer" 向量转换为character向量,但前提是它的元素是“可转换”为numeric 如果向量中只有一个numeric元素,则在尝试将该向量转换为character时会出错。

只是为了证明我的观点:

numerical

现在,只是为了好玩(或练习),尝试猜测这些命令的输出:

> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion 
> char
[1]  1 NA  3  4 NA

亲切地问帕特里克伯恩斯! =)

答案 1 :(得分:123)

帮助我的东西:如果你要转换的变量范围(或者只是一个变量),你可以使用sapply

有点荒谬,但仅举例来说:

data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)

假设数据帧的第3,6-15和37列需要转换为数字,可以:

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)

答案 2 :(得分:76)

如果x是数据框dat的列名,x是因子类型,请使用:

as.numeric(as.character(dat$x))

答案 3 :(得分:21)

我会添加评论(不能评分低)

添加用户276042和pangratz

dat$x = as.numeric(as.character(dat$x))

这将覆盖现有列x的值

答案 4 :(得分:15)

蒂姆是对的,肖恩有一个遗漏。以下是其他示例:

R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a), 
                        numchr = as.numeric(as.character(df$a)))
R> df
   a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
  a          num           numchr    
 10:1   Min.   :1.00   Min.   :10.0  
 11:1   1st Qu.:2.25   1st Qu.:11.2  
 12:1   Median :3.50   Median :12.5  
 13:1   Mean   :3.50   Mean   :12.5  
 14:1   3rd Qu.:4.75   3rd Qu.:13.8  
 15:1   Max.   :6.00   Max.   :15.0  
R> 

我们的data.frame现在有一个因子列(计数)的摘要和as.numeric()的数字摘要--- 错误,因为它获得了数字因子级别---和as.numeric(as.character())的(正确)摘要。

答案 5 :(得分:14)

使用以下代码,您可以将所有数据框列转换为数字(X是我们要转换它的列的数据框):

as.data.frame(lapply(X, as.numeric))

并且要将整个矩阵转换为数字,您有两种方法: 之一:

mode(X) <- "numeric"

或:

X <- apply(X, 2, as.numeric)

或者,您可以使用data.matrix函数将所有内容转换为数字,但请注意,这些因素可能无法正确转换,因此首先将所有内容转换为character更安全:

X <- sapply(X, as.character)
X <- data.matrix(X)

如果我希望同时转换为矩阵和数字,我通常会使用最后一个

答案 6 :(得分:13)

虽然您的问题严格依赖于数字,但在开始使用R时,很多转换都很难理解。我的目标是解决需要帮助的方法。此问题与This Question类似。

类型转换可能是R的痛苦,因为(1)因素不能直接转换为数字,它们需要先转换为字符类,(2)日期是您通常需要的特殊情况单独处理,(3)跨数据框列循环可能很棘手。幸运的是,&#34; tidyverse&#34;已经解决了大部分问题。

此解决方案使用mutate_each()将函数应用于数据框中的所有列。在这种情况下,我们想要应用type.convert()函数,它可以将字符串转换为数字。因为R喜欢因素(不确定原因)应该保持字符的字符列变为因子。要解决此问题,mutate_if()函数用于检测作为因子的列并更改为字符。最后,我想展示如何使用lubridate将字符类中的时间戳更改为日期时间,因为这通常也是初学者的一个难点。


library(tidyverse) 
library(lubridate)

# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90

# Converting columns to numeric using "tidyverse"
data_df %>%
    mutate_all(type.convert) %>%
    mutate_if(is.factor, as.character) %>%
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90

答案 7 :(得分:11)

如果您遇到以下问题:

foreach($arr['level1']['level2'][...]['levelGazillion'] as ...)

看看你的小数点。如果他们是&#34;,&#34;而不是&#34;。&#34; (例如&#34; 5,3&#34;)以上不会奏效。

可能的解决方案是:

as.numeric(as.character(dat$x))

我认为这在一些非英语国家非常普遍。

答案 8 :(得分:6)

使用type.convert()rapply()的通用方式:

convert_types <- function(x) {
    stopifnot(is.list(x))
    x[] <- rapply(x, utils::type.convert, classes = "character",
                  how = "replace", as.is = TRUE)
    return(x)
}
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num 
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num 
#> "character"   "integer"    "factor"    "factor"   "integer"

答案 9 :(得分:3)

要将数据框列转换为数字,您只需执行以下操作: -

数字因素: -

data_frame$column <- as.numeric(as.character(data_frame$column))

答案 10 :(得分:2)

虽然其他人已经很好地讨论了这个话题,但我想补充一下这个额外的快速思考/提示。您可以使用regexp提前检查字符是否可能只包含数字。

for(i in seq_along(names(df)){
     potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)

对于更复杂的正则表达式以及为什么要学习/体验他们的力量,请参阅这个非常好的网站:http://regexr.com/

答案 11 :(得分:0)

在我的电脑(R v.3.2.3)中,applysapply会出错。 lapply效果很好。

dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))

答案 12 :(得分:0)

考虑到可能存在char列,这是基于Get column types of excel sheet automatically中的@Abdou回答:

makenumcols<-function(df){
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) {
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  })
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)
}
df<-makenumcols(df)

答案 13 :(得分:0)

要将字符转换为数字,您必须通过应用

将其转换为系数
BankFinal1 <- transform(BankLoan,   LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))

您必须使用相同的数据创建两列,因为一列无法转换为数字。如果您进行一次转换,则会出现以下错误

transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message:
  In eval(substitute(list(...)), `_data`, parent.frame()) :
  NAs introduced by coercion

所以,在做了两列相同的数据后应用

BankFinal1 < transform(BankFinal1, LoanApp      = as.numeric(LoanApp), 
                                   LoanApproval = as.numeric(LoanApproval))

它会将字符成功转换为数字

答案 14 :(得分:0)

如果数据框有多种类型的列,某些字符,某些数字会尝试以下操作,只将包含数值的列转换为数字:

for (i in 1:length(data[1,])){
  if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
  else {
    data[,i]<-as.numeric(data[,i])
  }
}

答案 15 :(得分:0)

hablar :: convert

要轻松地将多列转换为不同的数据类型,可以使用hablar::convert。简单语法:df %>% convert(num(a))将列a从df转换为数字。

详细示例

mtcars的所有列都转换为字符。

df <- mtcars %>% mutate_all(as.character) %>% as_tibble()

> df
# A tibble: 32 x 11
   mpg   cyl   disp  hp    drat  wt    qsec  vs    am    gear  carb 
   <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 21    6     160   110   3.9   2.62  16.46 0     1     4     4    
 2 21    6     160   110   3.9   2.875 17.02 0     1     4     4    
 3 22.8  4     108   93    3.85  2.32  18.61 1     1     4     1    

使用hablar::convert

library(hablar)

# Convert columns to integer, numeric and factor
df %>% 
  convert(int(cyl, vs),
          num(disp:wt),
          fct(gear))

导致:

# A tibble: 32 x 11
   mpg     cyl  disp    hp  drat    wt qsec     vs am    gear  carb 
   <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
 1 21        6  160    110  3.9   2.62 16.46     0 1     4     4    
 2 21        6  160    110  3.9   2.88 17.02     0 1     4     4    
 3 22.8      4  108     93  3.85  2.32 18.61     1 1     4     1    
 4 21.4      6  258    110  3.08  3.22 19.44     1 0     3     1   

答案 16 :(得分:0)

df和您的数据框。 x是您要转换的df的一列

as.numeric(factor(df$x))

答案 17 :(得分:0)

如果您不关心保留这些因素,并且想将其应用于可以转换为数值的任何列,则可以使用下面的脚本。 如果df是您的原始数据帧,则可以使用以下脚本。

df[] <- lapply(df, as.character)
df <- data.frame(lapply(df, function(x) ifelse(!is.na(as.numeric(x)), as.numeric(x),  x)))

我引用了Shane'sJoran's解决方案