我正在尝试使用sub()执行查找和替换,并将其应用于多个列。
我的数据集看起来与此类似:
> mydata
col1 col2 col3 col4
1 1 $1.40 $5.39 $23.42
2 2 $(2.40) $(38.29) $(1,239.30)
3 3 $1,302.00 $102.32 $23.10
以传统会计格式表示的几个数字字段。
我尝试编写以下函数来替换括号底片,千位分隔符和美元数字。
find_replace <- function(df, cols){
df[, cols] <- sub('\\,','',df[, cols])
df[, cols] <- sub('\\$','',df[, cols])
df[, cols] <- sub('\\-','',df[, cols])
df[, cols] <- sub('\\(','-',df[, cols])
df[, cols] <- sub('\\)','',df[, cols])
df[, cols] <- as.numeric(df[, cols])
}
mydata[,2:4] <- lapply(mydata[,2:4], find_replace(mydata, 2:4))
...但是当我在上面的数据框架上测试时,继续收到以下错误
Error in match.fun(FUN) :
'find_replace(mydata, 2:4)' is not a function, character or symbol
当我尝试在我的实际数据集上运行它(应用它超过6列和大约480万行)时,它会挂起并且在我得到错误之前必须停止操作,但我想它会是一样的。
有关以高效方式结束以下内容的任何建议,其中所有字段都是数字的?我在尝试使用类似于this方法的csv时尝试使用带有SetClass函数的colClass参数但没有成功。
> mydata
col1 col2 col3 col4
1 1 1.40 5.39 23.42
2 2 -2.40 38.29 -1239.30
3 3 1302.00 102.32 23.10
提前谢谢!
编辑:再次尝试setClass选项,并使用来自@waterling的正则表达式:
setClass("acntngFmt")
# [1] "acntngFmt"
setAs("character", "acntngFmt",
function(from) as.numeric(gsub("(?![.])[[:punct:]]", "", col, perl=TRUE, from)))
Input <- "A, B, C
$1.40, $(2.40), $1,302.00
$5.39, $(38.29), $102.32
$23.42, $(1,239.30), $23.10"
DF <- read.csv(textConnection(Input), header = TRUE,
colClasses = c("acntngFmt", "acntngFmt", "acntngFmt"))
Error in as.character(x) :
cannot coerce type 'closure' to vector of type 'character'
答案 0 :(得分:1)
df<-data.frame(V1=c("$1.40","$(2.40)","$(1,302.00)"), V2=c("$5.39","$(38.29)","$0.00"))
V1 V2
1 $1.40 $5.39
2 $(2.40) $(38.29)
3 $(1,302.00) $0.00
apply(df, 2, function(col) as.numeric(gsub("(?![.])[[:punct:]]", "", col, perl=TRUE)))
V1 V2
[1,] 1.4 5.39
[2,] 2.4 38.29
[3,] 1302.0 0.00
apply(df, 2, function(col) {
as.numeric(
gsub("\\((.*)\\)","-\\1",
gsub("(?![.\\(\\)])[[:punct:]]", "", col, perl=TRUE)
)
)
})
V1 V2
[1,] 1.4 5.39
[2,] -2.4 -38.29
[3,] -1302.0 0.00
答案 1 :(得分:1)
首先将前导括号转换为减号,然后删除所有逗号,右括号和美元符号。
setClass("acntngFmt")
setAs("character", "acntngFmt",
function(from) as.numeric( gsub("[$),]", "", gsub("\\(", "-", from))))
DF <- data.frame( lapply(mydata[2:4], as, "acntngFmt"))
#---------------
DF
col2 col3 col4
1 1.4 5.39 23.42
2 -2.4 -38.29 -1239.30
3 1302.0 102.32 23.10
不是使用colClasses,而是在字符分类列上使用通用as
- 函数。如果您的列是因子类,则首先需要转换为字符。
mydata <-
structure(list(col1 = 1:3, col2 = structure(c(3L, 1L, 2L), .Label = c("$(2.40)",
"$1,302.00", "$1.40"), class = "factor"), col3 = structure(c(3L,
1L, 2L), .Label = c("$(38.29)", "$102.32", "$5.39"), class = "factor"),
col4 = structure(c(3L, 1L, 2L), .Label = c("$(1,239.30)",
"$23.10", "$23.42"), class = "factor")), .Names = c("col1",
"col2", "col3", "col4"), class = "data.frame", row.names = c("1",
"2", "3"))